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《数据 挖掘 算法 原理 与 实现 》 


数据 挖掘 是 一 个 涉及 数据 库 技术 、 人 工 智 能 ,统计 学 、 机 器 学 习 等 多 个 学 科 的 领域 ,并 
且 已 经 在 各 行 各 业 有 了 非常 广泛 的 应 用 。 为 适应 我 国 数据 挖掘 的 教学 工作 ,作者 在 数据 
挖掘 教学 实践 的 基础 上 ,参阅 了 多 种 国内 外 最 近 版 本 的 教材 ,编写 了 本 书 。 本 书 可 以 作为 


高 等 院 校 研究 生 的 教材 ,也 可 以 为 相关 行业 的 工程 技术 人 员 提 供 有 益 的 参考 。 


本 书 内 容 在 安排 上 循序 渐进 ,对 数据 挖掘 的 基本 算法 进行 了 详细 的 讲解 。 本 书 最 大 
的 特点 是 理论 与 实践 相 结 合 ,全 书 几乎 所 有 的 算法 都 配 有 实例 和 源 程 序 , 这 种 理论 与 实际 
相 结合 的 方法 克服 了 只 重 理论 轻 实践 的 内 容 组 织 方式 ,便于 读者 理解 和 掌握 所 学 知识 。 


具体 而 言 ,本 书 11 章 内 容 之 间 的 关系 如 下 图 所 示 。 


第 ! 章 绪论 


一 一 


对 数据 挖掘 的 概念 、 研 究 内 容 、 功 能 以 及 常用 的 
技术 和 工具 进行 了 介绍 


第 2 章 数据 预 处 理 


数据 预 处 理 的 目的 、 数 据 清理 、 数 据 集成 、 数 
变换 、 数 据 规约 、 数 据 离散 化 以 及 特征 提取 与 
选择 方法 进行 了 介绍 


误 妆 


第 3 章 关联 规则 挖掘 


对 关联 规则 挖掘 的 概念 以 及 Apriori 算 法 进行 了 详 
细 介 绍 ， 配 有 丰富 的 实例 和 源 代码 


第 4 章 决策 树 分 类 算法 


对 ID3 和 C4.5 两 种 决策 树 算法 进行 了 详细 介绍 ， 配 
有 丰富 的 实例 和 源 代 码 


第 5 章 贝 叶 斯 分 类 算法 


党 


贝 叶 斯 分 类 算法 进行 了 详细 介绍 ， 配 有 丰富 的 
实例 和 源 代码 


第 6 章 人 工 神经 网 络 算法 


GG 区 


壳 过 


第 7 章 支持 向 量 机 


对 支持 向 量 机 的 基本 原理 进行 了 详细 介绍 ， 配 有 
丰富 的 实例 和 源 代码 


第 8 章 K-means 聚 类 算法 


对 K-means 聚 类 算法 的 原理 进行 了 详细 介绍 ， 配 有 
丰富 的 实例 和 源 代码 


第 9 章 K- 中 心 点 聚 类 算法 


对 K- 中 心 点 聚 类 算法 的 原理 进行 了 详细 介绍 ， 配 


BP 神 经 网 络 进行 了 详细 介绍 ， 配 有 丰富 的 实例 
源 代码 
有 丰富 的 实例 和 源 代码 | 


第 10 章 神经 网 络 聚 类 算法 : SOM 


对 SOM 神 经 网 络 聚 类 算法 的 原理 进行 了 详细 介绍 ， 
配 有 丰富 的 实例 和 源 代码 


第 11 章 数据 挖掘 的 发 展 


人 


对 数据 挖掘 的 发 展 状况 进行 了 介绍 ， 如 Web 控 掘 、 
空间 数据 挖掘 、 流 数据 挖掘 以 及 数据 挖掘 的 可 视 化 


本 书 配 有 教学 课件 ,读者 可 登录 www. tup. com. cn 网 站 自行 下 载 。 由 于 编者 水 平 
有 限 ,本 书 必 定 存在 不 少 缺点 和 不 足 之 处 ,恳请 专家 和 读者 批评 指正 。 


编 者 
2014 年 12 月 
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第 1 章 绪 论 
1.1 数据 挖掘 的 概念 


数据 挖掘 (Data Mining,DM) 又 称 数据 库 中 的 知识 发 现 (Knowledge Discover in 
Database'KDD) ,是 涉及 机 器 学 习 \ 人 工 智 能 .数据 库 理 论 以 及 统计 学 等 学 科 的 交叉 研究 
领域 。 数 据 挖掘 就 是 从 数据 库 的 大 量 数据 中 挖掘 出 有 用 的 信息 , 即 从 大 量 的 ,不 完全 的 、 
有 噪声 的 、 模 糊 的 、 随 机 的 实际 应 用 数据 中 ,发 现 隐 含 的 ,规律 性 的 ,人们 事先 未 知 的 ,但 又 
是 潜在 有 用 的 并 且 最 终 可 理解 的 信息 和 知识 的 非 平 凡 过 程 。 数 据 挖掘 所 挖掘 的 知识 类 型 
包括 模型 .规律 ,规则 、 模 式 约束 等 。 所 谓 事先 未 知 的 信息 是 指 该 信息 是 预先 未 曾 预料 到 
的 , 即 信息 的 新 颖 性 。 数 据 挖掘 就 是 要 发 现 那些 不 能 靠 直 觉 发 现 的 ,甚至 是 违背 直觉 的 信 
息 或 知识 ,挖掘 出 的 信息 越 是 出 乎 意料 就 可 能 越 有 价值 。 潜 在 有 用 性 是 指 发 现 的 知识 将 
来 有 实际 效用 , 即 这 些 信 息 或 知识 对 于 所 讨论 的 业务 或 研究 领域 是 有 效 的 .有 实用 价值 的 
和 可 实现 的 ,一 般 而 言 常识 性 的 结论 或 已 被 人 们 掌握 的 事实 或 无 法 实现 的 推测 都 是 没有 
意义 的 。 最 终 可 理解 性 要 求 发 现 的 模式 能 被 用 户 理 解 , 目 前 它 主要 体现 在 简洁 性 上 , 即 发 
现 的 知识 要 可 接受 .可 理解 .可 运用 ,最 好 能 用 自然 语言 表达 所 发 现 的 结果 。 非 平凡 通常 
是 指数 据 挖掘 过 程 不 是 线性 的 ,在 挖掘 过 程 中 有 反复 ,有 循环 ,所 挖掘 的 知识 往往 不 容易 
通过 简单 的 分 析 就 能 够 得 到 ,这些 知识 可 能 隐 含 在 表面 现象 的 内 部 ,需要 经 过 大 量 数据 的 
比较 分 析 ,必要 时 要 应 用 一 些 专门 处 理 大 数据 量 的 数据 挖掘 工具 。 数 据 挖掘 是 一 种 决策 
支持 过 程 , 它 主要 基于 人 工 智 能 .机 器 学 习 、 模 式 识 别 、 统 计 学 ,数据库 .可 视 化 技术 等 ,高 
度 自动 化 地 分 析 企 业 的 数据 .做 出 归纳 性 的 推理 ,从 中 挖掘 出 潜在 的 模式 ,帮助 决策 者 调 
整 市 场 策略 ,减少 风险 ,做 出 正确 的 决策 。 

数据 挖掘 主要 有 数据 准备 ,规律 寻找 和 规律 表示 三 个 步 又。 数据 准备 是 从 相关 的 数据 源 
中 选取 所 需 的 数据 并 整合 成 用 于 数据 挖掘 的 数据 集 , 规 律 寻找 是 用 某 种 方法 将 数据 集 所 含 的 
规律 找 出 来 ,而 规律 表示 是 尽 可 能 以 用 户 可 理解 的 方式 (如 可 视 化 ) 将 找 出 的 规律 表示 出 来 。 

并 非 所 有 的 信息 发 现任 务 都 被 视 为 数据 挖掘 。 例 如 ,使 用 数据 库 管 理 系 统 查 找 个 别 
的 记录 ,或 通过 因特网 的 搜索 引擎 查找 特定 的 Web 页 面 , 则 是 信息 检索 (Information 
Retrieval) 领 域 的 任务 。 虽 然 这 些 任务 是 重要 的 ,可 能 涉及 使 用 复杂 的 算法 和 数据 结构 ， 
但 是 它们 主要 依赖 传统 的 计算 机 科学 技术 和 数据 的 明显 特征 来 创建 索引 结构 ,从 而 有 效 
地 组 织 和 检索 信息 。 尽 管 如 此 .数据 挖掘 技术 也 已 用 来 增强 信息 检索 系统 的 能 力 。 


1.2 数据 挖掘 的 历史 及 发 展 


数据 挖掘 的 发 展 历史 是 建立 在 相关 学 科 发 展 的 基础 上 的 。 随 着 数据 库 技术 的 发 展 及 
数据 应 用 ,人 们 积累 的 数据 越 来 越 多 。 激 增 的 数据 背后 隐藏 着 许多 重要 信息 ,简单 的 查询 
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和 统计 已 经 无 法 满足 商业 的 需求 ,需要 出 现 一 种 挖掘 数据 背后 隐藏 知识 的 手段 。 

同时 ,计算 机 技术 的 另 一 领域 一 一 人 工 智能 CArtificial Intelligence,AI) 自 1956 年 诞 
生 之 后 就 取得 了 重大 进展 。 经 历 了 博弈 时 期 .自然 语言 理解 .知识 工程 等 阶段 ,目前 的 热 
点 是 机 器 学 习 。 用 数据 库 管理 系统 来 存储 数据 ,用 机 器 学 习 的 方法 来 分 析 数据 ,挖掘 大 量 
数据 背后 的 知识 ,这 两 者 的 结合 促成 了 数据 库 中 的 知识 发 现 (Knowledge Discovery in 
Databases,KDD) 的 产生 。 数 据 库 中 的 知识 发 现 是 一 门 交叉 性 学 科 , 涉 及 机 器 学 习 、 模 式 
识别 ,统计 学 、 智 能 数据 库 、 知 识 获 取 、 数 据 可 视 化 、 高 性 能 计算 、 专 家 系统 等 多 个 领域 。 从 
数据 库 中 发 现 出 来 的 知识 可 以 用 在 信息 管理 ,过 程控 制 .科学 研究 、 决 策 支 持 等 许多 方面 。 

1989 年 8 月 在 美国 底特律 召开 的 第 11 届 国 际 人 工 智 能 联合 会 议 的 专题 讨论 会 上 首 
次 出 现 知识 发 现 (KDD) 这 个 术语 。 此 后 ,由 美国 人 工 智能 协会 主办 的 KDD 国际 研讨 会 
已 经 召开 了 8 次 ,规模 由 原来 的 专题 讨论 会 发 展 到 国际 学 术 大 会 ,研究 重点 也 逐渐 从 发 现 
方法 转向 系统 应 用 ,注重 多 种 发 现 策略 和 技术 的 集成 ,以 及 多 种 学 科 之 间 的 相互 渗透 。 

数据 挖掘 是 知识 发 现 (KDD) 最 核心 的 部 分 。1998 年 在 第 四 届 知 识 发 现 与 数据 挖掘 
国际 学 术 会 议 上 不 仅 进行 了 学 术 讨 论 , 并 且 有 三 十 多 家 软件 公司 展示 了 他 们 的 数据 挖掘 
软件 产品 ,不 少 软件 已 在 北美 .欧洲 等 国 得 到 了 上 应用。 数据 挖掘 经 历 了 十 多 年 的 发 展 , 现 
在 已 经 成 为 一 个 自 成 体系 的 应 用 学 科 。 

数据 挖掘 数学 理论 基础 的 发 展 ,与 统计 学 的 发 展 密 不 可 分 。 稳 健 性 是 数据 分 析 中 十 
分 重要 的 概念 ,可 以 说 它 与 数据 分 析 有 同样 悠久 的 历史 ,但 百 余年 来 只 限于 朴素 的 思想 和 
简单 的 方法 。 直 到 20 世纪 60 年 代 ,P.J. Huber 和 下 . R. Hampel 等 人 建立 了 一 套 理论 才 
形成 稳健 统计 这 一 年 轻 的 分 支 ,开创 性 地 解决 了 理论 分 布 假 定 有 偏差 的 资料 分 析 问题 , 扒 
动 了 稳健 方法 的 迅猛 发 展 和 广泛 应 用 ,取得 的 主要 成 果 包 括 : 异常 值 诊 断 、 高 杠杆 点 诊 
断 、 对 少量 污染 异常 敏感 的 回归 诊断 .M-estimator 等 稳健 估计 量 。 其 主要 意义 在 于 ,基于 
正 态 假定 的 理论 框架 正 被 打破 , 它 常 常 以 衡量 在 某 个 确定 的 参数 模型 (如 正 态 ) 下 的 优良 
性 (例如 ,估计 量 的 方差 , 均 方 误差 ,检验 的 水 平 ,功效 等 ) 来 判别 一 个 统计 方法 的 好 坏 。 然 
而 对 于 实际 问题 ,一 般 不 可 能 找到 描述 它 的 严格 模型 ,常用 的 参数 模型 只 是 一 种 近似 地 描 
述 。 换 句 话说 ,对 每 一 组 数据 常 存在 许多 可 作为 其 近似 描述 的 模型 。 稳 健 性 估计 为 数据 
挖掘 的 统计 分 布 描述 提供 新 方向 ,但 其 中 也 存在 一 定 的 失误 ,主要 在 于 在 寻找 稳健 估计 量 
上 花费 了 太 多 时 间 。 

20 世纪 70 年 代 早 期 ,一些 学 者 提出 探索 性 资料 分 析 ,John Tukey 提出 统计 建 模 应 结 
合资 料 的 真实 分 布 情况 ,其 主要 观点 包括 : (1) 数 据 分 析 应 从 数据 特征 出 发 研究 发 现 有 用 
信息 ,而 并 非 从 理论 分 布 假定 出 发 构建 模型 ;(2) 重 新 提出 描述 统计 在 资料 分 析 中 的 重 
要 性 。 

描述 统计 是 描绘 (Describe) 或 总 结 (Summarize) 的 观察 量 基本 情况 的 统计 总 称 。 描 
述 统计 学 研究 如 何 取得 反映 客观 现象 的 数据 ,并 通过 图 表 形 式 对 所 收集 的 数据 进行 加 工 
处 理 和 显示 ,进而 通过 综合 概括 与 分 析 得 出 反映 客观 现象 的 规律 性 数量 特征 。 通 过 对 数 
据 资料 进行 图 像 化 处 理 , 将 资料 摘要 变 为 图 表 , 可 以 直观 了 解 整体 资料 分 布 的 情况 。 通 常 
使 用 的 工具 是 频数 分 布 表 (Frequency Distribution Table ) 与 图 示 法 .如 多 边 图 (Polygon) 、 
直方 图 (Histogram/Barchart)、 圆 形 图 (Piechart) 、 散 点 图 (Scatterplot) 等 。 其 重要 意义 是 


多 


EE 


为 统计 学 指明 了 与 资料 相 结合 的 发 展 方向 ,但 其 中 也 有 很 多 不 足 , 主 要 是 注重 完善 理论 ， 
并 未 关注 信息 领域 对 数据 分 析 工 具 的 需求 。 进 入 20 世纪 70 年 代 后 期 ,在 数据 挖掘 领域 
取得 了 下 面 两 个 主要 成 就 。 

(1) 广义 线性 模型 。 广 义 线性 建 模 是 线性 模型 在 研究 响应 值 的 非 正 态 分 布 以 及 非 线 
性 模型 的 简洁 直接 的 线性 转化 时 的 一 种 发 展 。 其 最 大 的 作用 就 是 将 看 似 零碎 的 统计 研究 
的 多 方面 的 贡献 统一 起 来 ,概括 了 基于 正 态 理论 以 外 的 线性 模型 的 研究 。 

(2) EM 算法 。EM 算法 是 Dempster,Laind,Rubin 于 1977 年 提出 的 一 种 求 参 数 极 
大 似 然 估计 的 方法 , 它 可 以 从 非 完整 数据 集中 对 参数 进行 MLE 估计 ,是 一 种 非常 简单 实 
用 的 学 习 算 法 。 这 种 方法 可 以 广泛 地 应 用 于 处 理 缺 损 数据 , 截 尾 数据 , 带 有 噪声 等 所 谓 的 
不 完全 数据 (Incomplete Data) ,其 重要 作用 是 解决 不 完整 数据 估计 问题 的 数值 方法 ,即使 
数据 完整 ,缺失 值 在 最 优 估计 的 计算 中 也 有 用 。 

20 世纪 80 年 代 及 以 后 资料 模拟 及 非 参 统计 的 发 展 使 得 数据 挖掘 技术 进入 绒 新 的 阶 
段 ,SVM ,神经 网 络 、Bootstrap 法 的 提出 ,以 及 处 理 变量 非 线 性 关系 的 核 光 滑 (Kernel 
Smoothing) 法 增强 了 数据 挖掘 的 模式 识别 能 力 。 

(1) SVM。 支 持 向 量 机 (Support Vector Machine) 是 Cortes 和 Vapnik 于 1995 年 首 
先 提出 的 , 它 在 解决 小 样本 、 非 线性 及 高 维 模式 识别 中 表现 出 许多 特有 的 优势 ,并 能 够 推 
广 应 用 到 函数 拟 合 等 其 他 机 器 学 习 问 题 中 。 

(2) 神经 网 络 。20 世纪 80 年 代 初期 ,模拟 与 数字 混合 的 超大 规模 集成 电路 制作 技术 
提高 到 了 新 的 水 平 ,完全 实现 了 实用 化 ,此 外 ,数字 计算 机 的 发 展 在 若干 应 用 领域 遇 到 困 
难 。 这 一 背景 和 1984 年 在 美国 科学 院 院 刊 上 发 表 的 两 篇 关于 人 工 神经 网 络 的 研究 论文 ， 
引起 了 科学 界 的 巨大 反响 ,人 们 重新 认识 到 神经 网 络 的 威力 以 及 付 诸 应 用 的 现实 性 。 随 
即 一 大 批 学 者 和 研究 人 员 围 绕 着 Hopfield 提出 的 方法 展开 了 进一步 的 工作 ,推动 了 人 工 
神经 网 络 的 发 展 。 

(3) Bootstrap。1970 年 ,Efron 等 人 发 表 了 一 系列 的 论文 作为 Bootstrap 法 诞生 的 标 
志 , 即 在 已 知 数据 的 基础 上 ,通过 用 计算 机 来 模拟 N 趋 近 于 无 穷 大 时 的 情况 ,把 已 知 的 数 
据 不 断 地 重新 抽样 ,从 而 在 新 的 数据 中 得 出 原始 数据 的 信息 。 更 简单 地 讲 就 是 有 100 个 
数据 ,但 是 它们 没 办 法 真实 反映 样本 的 全 貌 , 则 对 这 100 个 数据 重新 随机 地 抽样 1000 次 ， 
这 样 就 得 到 了 1 001 000 个 数据 点 ,样本 量 就 会 增 大 很 多 。 这 个 方法 把 统计 学 的 发 展 大 大 
推进 了 一 步 ,和 计算 机 的 结合 又 紧密 了 很 多 。 

(4) 核 光滑 。20 世纪 80 年 代 后 期 ,在 非 参 数 领域 中 , 核 光 滑 方 法 (Kernel Smoothing) 
以 局 部 估计 的 特点 展示 了 统计 在 处 理 变量 的 非 线 性 关系 中 的 能 力 。 到 20 世纪 90 年 代 ， 
由 于 许多 应 用 问题 和 统计 问题 都 存在 对 象 复杂 和 正确 识别 模型 结构 的 困难 ,这 些 问题 推 
动 了 统计 技术 的 研究 ,例如 ,通过 马尔 科 夫 链 模 特 卡 罗 方 法 (Markov Chain Monte Carlo， 
MCMC) 模 拟 解 决 复杂 性 问题 。 

当然 ,数据 挖掘 中 还 存在 许多 问题 有 待 进一步 研究 ,包括 下 列 几 个 研究 方向 : 

(1) 算法 效率 和 可 伸缩 性 。 目 前 数据 库 中 数据 的 规模 呈 指 数 增长 。 在 商业 数据 库 
中 ,GB 和 TB 规模 的 数据 库 也 已 经 非常 普遍 。PB 规模 的 数据 库 也 大 量 出 现 , 例 如 NASA 
轨道 卫星 上 的 地 球 观测 系统 (Earth Observing System,EOS) 每 小 时 会 向 地 面 发 回 大 量 图 
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像 数 据 ,大 型 天 文 望远镜 每 年 会 产生 不 少 于 10TB 的 数据 等 。 据 统计 ,数据 和 计算 资源 的 
增长 速度 符合 摩尔 定理 ,每 18 个 月 翻 一 番 , 海 量 数据 挖掘 的 最 大 挑战 不 仅仅 在 于 数据 库 
中 数据 的 绝对 规模 ,还 在 于 数据 挖掘 系统 是 否 能 够 处 理 这 些 持续 增长 的 数据 集合 。 传 统 
的 进行 数据 分 析 的 算法 假设 数据 库 中 的 记录 数 比 较 少 ,然而 ,现在 许多 数据 库 大 到 内 存 无 
法 装 下 整个 数据 库 。 由 于 从 磁盘 中 获得 数据 明显 比 从 内 存 中 存 取 数据 慢 , 因 此 为 了 保证 
高 效率 ,运用 到 大 型 数据 库 中 的 数据 挖掘 算法 应 该 是 高 度 可 伸缩 性 的 , 即 如 果 给 出 一 个 固 
定 的 内 存 大 小 ,算法 的 运行 时 间 随 着 输入 数据 库 的 记录 数 呈 线性 递增 ,就 说 该 算法 是 可 伸 
缩 的 。 假 设 现在 使 用 一 个 计算 复杂 度 为 O08) 的 算法 ,根据 摩尔 定理 ,在 10 年 后 一 个 同 
样 的 数据 挖掘 任务 将 需要 现在 时 间 的 10 000 倍 。 其 原因 是 在 这 段 时 间 内 ,数据 的 规模 和 
计算 速度 将 大 约 增长 100 倍 , 而 计算 的 复杂 度 将 增加 1 000 000 倍 。 也 就 是 说 ,如 果 一 个 
数据 挖掘 任务 现在 需要 1 个 小 时 完成 ,10 年 后 , 它 的 运行 时 间 将 超过 一 年 。 因 此 ,运行 海 
量 数据 挖掘 的 算法 最 好 具有 线性 的 计算 复杂 度 O(n), 必须 能 有 效 地 处 理 海量 数据 ,其 算 
法 必须 是 高 效率 和 可 伸缩 的 。 

(2) 处 理 不 同类 型 的 数据 和 数据 源 。 目 前 数据 挖掘 系统 处 理 的 数据 库 大 多 是 关系 数 
据 库 。 随 着 数据 库 应 用 范围 和 规模 的 扩大 、 功 能 的 日 益 完 善 ,数据 库 中 将 包含 大 量 复杂 的 
数据 类 型 。 如 非 结 构 化 和 半 结 构 化 的 数据 .复杂 的 数据 对 象 .混合 文本 、 多 媒体 数据 .时 空 
数据 .事务 数据 及 历史 数据 等 ,甚至 出 现 新 的 数据 库 模 型 。 因 此 ,保证 数据 挖掘 系统 能 有 
效 地 处 理 不 同类 型 的 数据 库 中 的 数据 是 至 关 重 要 的 。 

(3) 数据 挖掘 系统 的 交互 性 。 数 据 挖掘 中 操作 者 的 适当 参与 能 加 速 数据 挖掘 的 过 
程 。 一 方面 ,交互 界面 接收 用 户 的 检索 ,查询 要 求 和 数据 挖掘 策略 ,为 用 户 表达 要 求 和 策 
略 提供 了 方便 ; 另 一 方面 ,交互 界面 又 把 生成 结果 传递 给 用 户 , 由 于 生成 的 结果 可 以 是 多 
种 多 样 的 ,因此 ,能 友好 、 准 确 而 直观 地 描述 挖掘 结果 的 用 户 界面 一 直 是 研究 的 重要 课题 
之 一 

(4) Web 挖掘 。 由 于 Web 上 存 有 大 量 信息 ,并 且 Web 在 当今 社会 扮演 越 来 越 重要 
的 角色 ,因此 , Web 挖掘 将 成 为 数据 挖掘 中 一 个 重要 和 繁荣 的 子 领域 。 

(5) 数据 挖掘 中 的 信息 保护 与 数据 安全 。 数 据 挖掘 能 从 不 同 的 角度 ,不同 的 抽象 层 
上 看 待 数据 ,这 将 潜在 地 影响 数据 的 私有 性 和 安全 性 。 随 着 计算 机 网 络 的 日 益 普及 ,研究 
数据 挖掘 可 能 导致 的 非法 数据 入 侵 是 实际 应 用 中 需要 解决 的 问题 之 一 。 

(6) 探索 新 的 应 用 领域 。 数 据 挖掘 的 应 用 领域 在 不 断 扩 大 。 由 于 通用 数据 挖掘 系统 
在 处 理 特定 应 用 问题 时 有 其 局 限 性 ,因此 ,目前 的 一 种 趋势 是 开发 针对 特定 应 用 的 数据 挖 

(7) 标准 的 数据 挖掘 语言 或 相关 方面 的 标准 化 工作 将 有 助 于 数据 挖掘 系统 的 研究 和 
开发 ,有 利于 用 户 学 习 和 使 用 数据 挖掘 系统 。 

(8) 数据 挖掘 结果 的 可 用 性 、 确 定性 及 可 表达 性 。 数 据 挖掘 所 发 现 的 知识 需 精 确 地 
描述 数据 库 中 数据 的 内 容 , 并 对 已 明确 的 应 用 是 有 用 的 。 对 于 非 精 确 的 结果 需 借助 不 确 
定 方式 来 表达 ,以 相似 的 规则 或 多 个 规则 来 描述 ,同时 ,噪声 及 应 去 除 的 数据 在 数据 挖掘 
系统 中 应 被 仔细 处 理 。 

(9) 各 种 数据 挖掘 结果 的 表达 。 数 据 挖掘 可 以 发 现 不 同 种 类 的 知识 , 既 可 以 从 不 同 


的 角度 来 检验 发 现 的 知识 ,也 可 以 用 不 同 的 形式 来 表示 这 些 知识 ,这 就 要 求 既 要 表达 对 数 
据 挖掘 的 要 求 , 也 要 以 高 级 语言 或 图 形 用 户 界面 来 表达 发 现 的 知识 ,使 其 容易 被 用 户 理解 
和 运用 。 

(10) 可 视 化 数据 挖掘 。 可 视 化 数据 挖掘 是 从 大 量 数据 中 发 现 知识 的 有 效 途 径 , 系统 
研究 和 开发 可 视 化 数据 挖掘 技术 将 有 助 于 推进 数据 挖掘 作为 数据 分 析 的 基本 工具 。 


1.3 数据 挖掘 的 研究 内 容 及 功能 


1.3.1 数据 挖掘 的 研究 内 容 


随 着 数据 挖掘 研究 逐步 走向 深入 ,已 经 形成 了 三 根 强大 的 技术 支柱 : 数据 库 、 人 工 知 
能 和 数理 统计 。 因 此 ,KDD 大 会 程序 委员 会 曾经 由 这 三 个 学 科 的 权威 人 物 同 时 来 任 主 
席 。 目 前 数据 挖掘 的 主要 研究 内 容 包 括 基础 理论 发 现 算法 ,数据 仓库 、 可 视 化 技术 、 定 性 
定量 互 换 模型 .知识 表示 方法 ,发现 知识 的 维护 和 再 利用 、 半 结构 化 和 非 结构 化 数据 中 的 
知识 发 现 以 及 Web 数据 挖掘 等 。 数 据 挖 掘 所 发 现 的 知识 最 常见 的 有 以 下 5 类 : 


1. 广义 知识 (Generalization) 


广义 知识 指 类 别 特征 的 概括 性 描述 知识 ,是 根据 数据 的 微观 特性 发 现 其 表征 的 、 带 有 
普遍 性 的 、 较 高 层次 概念 的 .中 观 和 宏观 的 知识 ,反映 同类 事物 共同 性 质 , 它 是 对 数据 的 概 
括 、 精 炼 和 抽象 。 

广义 知识 的 发 现 方法 和 实现 技术 有 很 多 ,如 数据 立方 体 、 面 向 属性 的 归 约 等 。 数 据 立 
方 体 还 有 其 他 一 些 别 名 ,如 “多 维 数据 库 ”“ 实 现 视图 ”"“OLAP” 等 。 该 方法 的 基本 思想 
是 实现 某 些 常用 的 代价 较 高 的 聚集 函数 的 计算 ,诸如 计数 、 求 和 ,平均 .最 大 值 等 ,并 将 这 
些 实现 视图 储存 在 多 维 数据 库 中 。 既 然 很 多 聚集 函数 需 经 常 重复 计算 ,那么 在 多 维 数据 
立方 体 中 存放 预先 计算 好 的 结果 将 能 保证 快速 响应 ,并 可 灵活 地 提供 不 同 角度 和 不 同 抽 
象 层 次 上 的 数据 视图 。 另 一 种 广义 知识 发 现 方法 是 加 拿 大 Simon Fraser 大 学 提出 的 面 
向 属性 的 归 约 方法 。 这 种 方法 以 类 SQL 语言 表达 数据 挖掘 的 查询 操作 ,收集 数据 库 中 的 
相关 数据 集 ,然后 在 相关 数据 集 上 应 用 一 系列 数据 推广 技术 进行 数据 推广 ,包括 属性 删 
除 、 概 念 树 提升 .属性 阔 值 控制 .计数 及 其 他 聚集 函数 传播 等 。 


2. 关联 知识 (Association ) 


关联 知识 反映 一 个 事件 和 其 他 事件 之 间 依 赖 或 关联 的 知识 ,又 称 依赖 (Dependency) 
关系 。 这 类 知识 可 用 于 数据 库 中 的 归 一 化 ,查询 优化 等 。 如 果 两 项 或 多 项 属性 之 间 存 在 
关联 ,那么 其 中 一 项 的 属性 值 就 可 以 依据 其 他 属性 值 进 行 预测 。 最 为 著名 的 关联 规则 发 
现 方法 是 R. Agrawal 提出 的 Apriori 算法 。 关 联 规则 的 发 现 可 分 为 两 步 。 第 一 步 是 迭代 
识别 所 有 的 频繁 项 目 集 ,要 求 频繁 项 目 集 的 支持 率 不 低 于 用 户 设 定 的 最 低 值 ;第 二 步 是 从 
频繁 项 目 集中 构造 可 信和 度 不 低 于 用 户 设 定 的 最 低 值 的 规则 。 识 别 或 发 现 所 有 频繁 项 目 集 
是 关联 规则 发 现 算法 的 核心 ,也 是 计算 量 最 大 的 部 分 。 
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3. 分 类 知识 (Classification &Clustering) 


分 类 知识 反映 同类 事物 共同 性 质 的 特征 型 知识 和 不 同事 物 之 间 的 差异 型 特征 知识 ， 
用 于 反映 数据 的 汇聚 模式 或 根据 对 象 的 属性 区 分 其 所 属 类 别 。 最 为 典型 的 分 类 方法 是 基 
于 决策 树 的 分 类 方法 , 它 从 实例 集中 构造 决策 树 ,是 一 种 有 指导 的 学 习 方法 。 该 方法 先 根 
据 训 练 子 集 (又 称 为 窗口 ) 形 成 决策 树 ,如 果 该 树 不 能 对 所 有 对 象 给 出 正确 的 分 类 ,那么 选 
择 一 些 例 外 加 入 到 窗口 中 ,重复 该 过 程 一 直到 形成 正确 的 决策 集 。 最 终结 果 是 一 棵 树 ,其 
叶 节点 是 分 类 名 称 , 中 间 节 点 是 带 有 分 支 的 属性 ,该 分 支 对 应 该 属性 的 某 一 可 能 值 。 最 为 
典型 的 决策 树 学 习 系 统 是 ID3, 它 采用 自 项 向 下 不 回溯 策略 ,能 保证 找到 一 个 简单 的 树 。 
算法 C4.5 和 C5.0 都 是 ID3 的 扩展 ,它们 将 分 类 领域 从 类 别 属性 扩展 到 数值 型 属性 。 

数据 分 类 还 有 统计 、 粗 糙 集 (Rough Set) 等 方法 ,线性 回归 和 线性 辨别 分 析 是 典型 的 
统计 模型 ,为 降低 决策 树 生成 代价 ,人 们 还 提出 了 一 种 区 间 分 类 器 ,也 有 人 研究 使 用 神经 
网 络 方法 在 数据 库 中 进行 分 类 和 规则 提取 。 


4. 预测 型 知识 (Prediction) 


预测 性 知识 根据 时 间 序 列 型 数据 ,由 历史 的 和 当前 的 数据 去 推测 未 来 的 数据 ,也 可 以 
认为 是 以 时 间 为 关键 属性 的 关联 知识 。 目 前 ,时 间 序 列 预测 方法 有 经 典 的 统计 方法 、 神 经 
网 络 和 机 器 学 习 等 。1968 年 Box 和 Jenkins 提出 了 一 套 比较 完善 的 时 间 序 列 建 模 理 论 和 
分 析 方 法 ,这 些 经 典 的 数学 方法 通过 建立 随机 模型 ,如 自 回归 模型 . 自 回 归 滑 动 平均 模型 、 
求 和 自 回 归 滑 动 平 均 模型 和 季节 调整 模型 等 ,进行 时 间 序 列 的 预测 。 由 于 大 量 的 时 间 序 
列 是 非 平稳 的 ,其 特征 参数 和 数据 分 布 随 着 时 间 的 推移 而 发 生变 化 。 因 此 ,仅仅 通过 对 某 
段 历史 数据 的 训练 ,建立 单一 的 神经 网 络 预测 模型 ,还 无 法 完成 准确 的 预测 任务 。 为 此 ， 
人 们 提出 了 基于 统计 学 和 基于 精确 性 的 再 训练 方法 , 当 发 现 现存 预测 模型 不 再 适用 于 当 
前 数据 时 ,对 模型 重新 训练 ,获得 新 的 权重 参数 ,建立 新 的 模型 。 另 外 ,也 有 许多 系统 借助 
并 行 算法 的 计算 优势 进行 时 间 序 列 预测 。 


5. 偏差 型 知识 (Deviation) 


偏差 型 知识 是 对 差异 和 极端 特例 的 描述 ,揭示 事物 偏离 常规 的 异常 现象 ,如 标准 类 外 
的 特例 ,数据 聚 类 外 的 离 群 值 等 。 所 有 这 些 知 识 都 可 以 在 不 同 的 概念 层次 上 被 发 现 , 并 随 
着 概念 层次 的 提升 ,从 微观 到 中 观 、 到 宏观 ,以 满足 不 同 用 户 不 同 层次 决策 的 需要 。 


1.3.2 数据 挖掘 的 功能 


数据 挖掘 用 于 在 指定 数据 挖掘 任务 中 找到 模式 类 型 ,数据 挖掘 任务 一 般 可 以 分 为 两 
类 : 描述 和 预测 。 描 述 性 挖掘 任务 刻画 数据 库 中 数据 的 一 般 特性 ;预测 性 挖掘 任务 在 当 
前 数据 中 进行 推测 和 预测 。 用 户 有 时 不 知道 他 们 的 数据 中 什么 类 型 的 模式 是 有 趣 的 , 因 
此 数据 挖掘 系统 要 能 够 并 行 地 挖掘 多 种 类 型 的 模式 ,以 适应 不 同 的 用 户 需要 或 不 同 的 应 
。 此 外 ,数据 挖掘 系统 应 当 能 够 发 现 各 种 粒度 ( 即 不 同 的 抽象 层次 ) 的 模式 。 数 据 挖掘 


FE 


系统 应 当 人 允许 用 户 给 出 提示 ,指导 或 者 聚焦 有 趣 模 式 的 搜索 。 由 于 有 些 模 式 并 非 对 数据 
库 中 的 所 有 数据 都 成 立 , 通 常 每 个 被 发 现 的 模式 需要 带 上 一 个 确定 性 或 “可 信人 性 ?量度 。 
数据 挖掘 的 功能 主要 体现 在 以 下 六 个 方面 。 


1. 类 /概念 描述 : 特征 化 和 区 分 


数据 可 以 与 类 或 概念 相关 联 。 一 个 概念 常常 是 对 一 个 包含 大 量 数据 的 数据 集合 总 体 
情况 的 概述 。 对 含有 大 量 数据 的 数据 集合 进行 描述 性 的 总 结 并 获得 简明 、 准 确 的 描述 ,这 
种 描述 就 称 为 类 /概念 描述 (Class/Concept Description)。 这 种 描述 可 以 通过 以 下 方法 
得 到 : 

(1) 数据 特征 化 ,一 般 地 汇总 所 研究 类 ( 称 为 目标 类 (Target Class) ) 的 数据 。 

(2) 数据 区 分 ,将 目标 类 与 一 个 或 者 多 个 比较 类 ( 常 称 为 对 比 类 (Contrasting Class)) 
比较 。 

(3) 数据 特征 化 和 比较 。 

数据 特征 化 (Data Characterization) 是 目标 类 数据 的 一 般 特征 或 特性 的 汇总 。 通 常 ， 
用 户 指定 类 的 数据 通过 数据 库 查 询 收集 。 例 如 ,为 研究 上 一 年 销售 增加 10% 的 软件 产品 
的 特征 ,可 以 通过 执行 一 个 SQL 查询 收集 关于 这 些 产 品 的 数据 。 

有 许多 有 效 的 方法 可 以 将 数据 特征 化 和 汇总 。 例 如 ,基于 数据 立方 体 的 OLAP 上 卷 
操作 可 以 用 来 执行 用 户 控制 的 \ 沿 着 指定 维 的 数据 汇总 。 一 种 面向 属性 的 归纳 技术 可 以 
用 来 进行 数据 的 概 化 和 特征 化 ,而 不 必 一 步 步 地 与 用 户 进行 交互 。 

数据 特征 可 以 通过 多 种 形式 输出 ,包括 饼 图 、 条 图 、 曲 线 、 多 维 数据 立方 体 和 包括 交叉 
表 在 内 的 多 维 表 。 结 果 描述 也 可 以 由 概 化 关系 (Generalized Relation) 或 规则 形式 ( 称 为 
特征 规则 ) 提 供 。 

数据 区 分 (Data Discrimination) 是 将 目标 类 对 象 的 一 般 特性 与 一 个 或 多 个 对 比 类 对 
象 的 一 般 特 性 进行 比较 。 目 标 类 和 对 比 类 由 用 户 指定 ,而 对 应 的 数据 通过 数据 库 查 询 检 
索 。 例 如 ,用 户 可 能 希望 将 上 一 年 销售 增加 10% 的 软件 产品 与 同一 时 期 销售 至 少 下 降 
30% 的 那些 产品 进行 比较 。 用 于 数据 区 分 的 方法 与 用 于 数据 特征 化 的 方法 类 似 。 

区 分 描述 的 输出 形式 类 似 于 特征 描述 ,但 区 分 描述 应 当 包 括 比较 量度 ,帮助 区 分 目标 
类 和 对 比 类 。 用 规则 表示 的 区 分 描述 称 为 区 分 规则 (Discriminant Rule)。 用 户 应 当 能 够 
对 特征 和 区 分 描述 的 输出 进行 操作 。 


2. 关联 分 析 


关联 分 析 (Association Analysis) 就 是 从 给 定 的 数据 集中 发 现 频繁 出 现 的 项 集 模 式 知 
识 , 又 称 为 关联 规则 (Association Rules)。 关 联 分析 广 泛 应 用 于 市 场 营销 .事务 分 析 等 
领域 。 

通常 关联 规则 具有 X=>Y 的 形式 即 “Al 入 … 人 4 一 BA 人 … 和 了 B," 的 规则 ,其 中 ,A; 
(i€E {l,m)),B;(jE1{1,2,…,n)) 均 为 属性 一 值 的 形式 。 关 联 规则 X 一 Y 表示 “数据 
库 中 满足 X 中 条 件 的 记录 (Tuples) 也 一 定 满足 立 中 的 条 件 ”。 
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3. 分 类 和 预测 


分 类 (Classification) 就 是 找 出 一 组 能 够 描述 数据 集合 典型 特征 的 模型 (或 函数 ) ,以 
便 能 够 分 类 识别 未 知 数据 的 归属 或 类 别 (Class) ,即将 未 知事 例 映射 到 某 种 离散 类 别 之 
一 。 分 类 模式 (或 函数 ) 可 以 通过 分 类 挖掘 算法 从 一 组 训练 样本 数据 (其 类 别 归属 已 知 ) 中 
学 习 获 得 。 

分 类 挖掘 所 获得 的 分 类 模型 可 以 采用 多 种 形式 加 以 描述 输出 。 其 中 主要 的 表示 方法 
有 : 分 类 规则 (IF-THEN) .决策 树 (Decision Trees) ,数学 公式 (Mathematical Formulate) 
和 神经 网 络 。 分 类 规则 容易 由 判定 树 转 换 而 成 。 决 策 树 是 一 个 类 似 于 流程 图 的 树 结构 ， 
每 个 节点 代表 一 个 属性 值 上 的 测试 ,每 个 分 支 代表 测试 的 一 个 输出 ,树叶 代表 类 和 类 分 
布 。 神 经 网 络 在 用 于 分 类 时 是 一 组 类 似 于 神经 元 的 处 理 单元 ,单元 之 间 加 权 连 接 。 

分 类 可 以 用 来 预测 数据 对 象 的 类 标记 。 然 而 ,在 某 些 应 用 中 ,人 们 可 能 希望 预测 某 些 
空缺 或 未 知 的 数据 值 ,而 不 是 类 标记 。 当 被 预测 的 值 是 数据 数值 时 ,通常 称 为 预测 
(Prediction)。 尽 管 预测 可 以 涉及 数据 值 预 测 和 类 标记 预测 ,但 预测 通常 是 指 值 预 测 , 并 
不 同 于 分 类 。 预 测 同时 也 包含 基于 可 用 数据 的 分 布 趋势 识别 。 

相关 分 析 (Relevance Analysis) 可 能 需要 在 分 类 和 预测 之 前 进行 , 它 试图 识别 对 于 分 
类 和 预测 无 用 的 属性 ,这 些 属性 应 当 排 除 。 


4. 聚 类 分 析 


聚 类 分 析 (Clustering Analysis) 与 分 类 预测 方法 的 明显 不 同 之 处 在 于 ,后 者 学 习 获 得 
分 类 预测 模型 所 使 用 的 数据 是 已 知 类 别 属性 (Class-labeled Data) ,属于 有 监督 学 习 方法 ， 
而 聚 类 分 析 ( 无 论 是 在 学 习 还 是 在 归 类 预测 时 ) 所 分 析 处 理 的 数据 均 是 无 (事先 确定 ) 类 别 
归属 的 。 类 别 归属 标志 在 聚 类 分 析 处 理 的 数据 集中 是 不 存在 的 , 聚 类 也 便于 将 观察 到 的 
内 容 分 类 编制 (Taxonomy Formation) 成 类 分 层 结构 ,把 类 似 的 事件 组 织 在 一 起 。 


5. 孤立 点 分 析 


数据 库 中 可 能 包含 一 些 与 数据 的 一 般 行为 或 模型 不 一 致 的 数据 对 象 , 这 些 数据 对 
象 被 称 为 孤立 点 (Outlier) 。 大 部 分 数据 挖掘 方法 将 孤立 点 视 为 噪声 或 异常 而 丢弃 , 然 
而 在 一 些 应 用 场合 ,如 各 种 商业 欺诈 行为 的 自动 检测 中 ,小 概率 发 生 的 事件 (数据 ?往往 比 
经 常 发 生 的 事件 (数据 ) 更 有 挖掘 价值 ,孤立 点 数据 分 析 通 常 称 为 孤立 点 挖掘 (Outlier 
Mining) 。 

孤立 点 可 以 使 用 统计 试验 检测 。 它 假定 一 个 数据 分 布 或 概率 模型 ,并 使 用 距离 进行 
量度 ,到 其 他 聚 类 的 距离 很 大 的 对 象 被 视 为 孤立 点 。 基 于 偏差 的 方法 通过 考察 一 群 对 象 
的 主要 特征 上 的 差别 来 识别 孤立 点 ,而 不 是 使 用 统计 或 距离 量度 。 


6. 演变 分 析 


数据 演变 分 析 (Evolution Analysis) 就 是 对 随时 间 变 化 的 数据 对 象 的 变化 规律 和 趋 
势 进行 建 模 描述 。 这 一 建 模 手 段 包括 概念 描述 、 对 比 概念 描述 、 关 联 分 析 、 分 类 分 析 、 时 间 
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相关 数据 (Time-Related) 分 析 , 时 间 相 关 数 据 分 析 又 包括 时 序数 据 分 析 , 序 列 或 周期 模式 
匹配 ,以 及 基于 相似 性 的 数据 分 析 等 。 


1.4 数据 挖掘 的 常用 技术 及 工具 


1.4.1 数据 挖掘 的 常用 技术 


1. 预测 (Forecast) 技 术 


为 了 科学 .详细 地 了 解 某 企 业 ( 某 生产 部 门 ) 的 业务 发 展 情况 和 今后 的 走势 ,可 采用 预 
测 技术 对 其 生产 有 利 的 条 件 进 行 科学 论证 和 判断 。 一 般 在 预测 过 程 中 ,可 以 根据 目标 范 
围 的 不 同 ,将 其 分 为 宏观 预测 和 微观 预测 。 例 如 宏观 经 济 预测 是 指 对 整个 国民 经 济 或 一 
个 地 区 ,一 个 部 门 的 经 济 发 展 前 景 的 预测 ;而 微观 经 济 预 测 是 以 单个 经 济 单位 的 经 济 活动 
前 景 作为 考察 对 象 的 。 按 预测 期 限 长 短 不 同 ,可 分 为 长 期 预测 \ 中 期 预测 和 短期 预测 。 按 
预测 结果 的 性 质 不 同 , 可 分 为 定性 预测 与 定量 预测 ,有 时 也 采用 混合 预测 方法 。 


2. 关联 规则 (Association Rules) 技 术 


关联 规则 技术 主要 应 用 在 从 大 型 数据 库 中 找到 潜在 的 属性 相关 的 知识 上 。 例 如 , 通 
过 调研 发 现 ,客户 在 许多 的 汽车 修理 部 门 修理 汽车 的 同时 ,也 存在 着 购买 汽车 椅 垫 和 其 他 
零 部 件 的 可 能 ,如 果 将 这 些 相关 的 物品 和 零 部 件 都 放 在 汽车 修理 部 门 中 , 则 会 发 现 三 者 的 
效率 会 同时 上 升 。 目 前 ,利用 关联 属性 技术 进行 数据 挖掘 的 研究 非常 盛行 ,著名 的 
Apriori 算法 属于 目前 关联 属性 挖掘 的 较 好 算法 模型 之 一 ,已 经 被 应 用 在 不 同 的 研究 领 
域 中 。 


3. 聚 类 分 析 (Clustering Analysis) 技 术 


聚 类 分 析 是 根据 事物 的 特征 对 其 进行 聚 类 或 分 类 ,通过 聚 类 或 分 类 发 现 其 中 的 规律 
和 模式 。 聚 类 或 分 类 以 后 ,样本 数据 集 就 转化 为 类 集 。 同 一 类 的 样本 数据 具有 相似 的 变 
量 值 ,不 同类 的 样本 数据 的 变量 值 不 具有 相似 性 。 


4. 粗糙 集 (Rough Sets) 技 术 


该 技术 采用 的 理论 是 粗糙 集 理论 ,将 约 简 技术 应 用 在 不 确定 数据 的 范 化 和 数据 挖掘 
中 。 粗 糙 集 理论 是 波兰 Pawlak Z 教授 在 1982 年 提出 的 一 种 智能 决策 分 析 工 具 , 它 是 一 
种 刻画 不 完整 性 和 不 确定 的 数学 工具 ,能 有 效 地 分 析 不 精确 不一致, 不 完整 等 各 种 不 完 
备 的 信息 ,并且 能 够 将 不 确定 数据 分 析 的 结果 即 不 确定 和 不 精确 的 知识 用 已 知 的 知识 库 
来 近似 刻画 和 处 理 。 利 用 粗糙 集 理论 可 以 解决 的 实际 问题 有 不 确定 (不 精确 ) 数 据 的 简 
化 、 不 确定 (不 精确 ) 数 据 的 关联 性 发 现 ,不 确定 (不 精确 ) 数 据 所 产生 的 决策 模型 ,不 确定 
(不 精确 ) 数 据 所 产生 的 范 化 、 基 于 不 确定 (不 精确 ) 数 据 的 知识 发 现 等 。 
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5. 进化 计算 (Evolutionary Computation ,EC) 技 术 


基于 生物 界 的 自然 选择 和 自然 遗传 机 制 的 计算 方法 ,如 遗传 算法 (Genetic Algorithm， 
GA) .进化 策略 (Evolution Strategies, ES) 和 进化 规则 (Evolutionary Programming,EP) 
等 方法 ,在 科研 和 实际 问题 中 的 应 用 越 来 越 广泛 .并 取得 了 较 好 的 成 果 。 这 些 方法 都 是 基 
于 生物 进化 的 基本 思想 来 设计 、 控 制 和 优化 人 工 系统 的 ,一 般 将 这 类 计算 方法 统称 为 进化 
计算 ,而 将 相应 的 算法 统称 为 “进化 算法 ?或 者 “进化 程序 ”。 这 些 方法 可 以 在 可 以 承受 的 
计算 时 间 内 ,很 好 地 解决 复杂 的 非 线性 优化 问题 ,克服 具有 多 个 局 部 极 值 的 非 线性 最 优化 
问题 ,找到 全 局 最 优 解 ,也 可 以 解决 复杂 的 组 合 规划 或 者 整数 规划 问题 。 


6. 灰色 系统 (Grey System) 技 术 


灰色 系统 是 通过 对 原始 数据 的 收集 与 整理 来 寻求 其 发 展 变化 规律 的 。 客 观 系统 所 表 
现 出 来 的 现象 尽管 烦琐 ,但 其 发 展 变化 有 着 自己 的 客观 逻辑 规律 ,是 系统 整体 各 功能 间 的 
协调 统一 。 因 此 ,如 何 通 过 散乱 的 数据 序列 去 寻找 其 内 在 的 发 展 规律 就 显得 特别 重要 。 
灰色 系统 理论 认为 ,一 切 灰 色 序列 都 能 通过 某 种 生成 弱化 其 随机 性 而 呈现 本 来 的 规律 , 认 
为 微分 方程 能 较 准确 地 反映 事件 的 客观 规律 ,也 就 是 通过 灰色 数据 序列 建立 系统 反应 模 
型 ,并 通过 该 模型 预测 系统 的 可 能 变化 状态 。 


7. 模糊 逻辑 (Fuzzy Logic) 

模糊 数学 是 继 经 典 数学 .统计 数学 之 后 ,在 数学 上 的 又 一 新 的 发 展 。 在 数据 挖掘 领 
域 , 基 于 模糊 逻辑 可 以 实现 模糊 综合 判别 、 模 糊 聚 类 分 析 等 多 种 数据 挖掘 模型 。 

8. 人 工 智能 (Artificial Intelligence,AD) 技 术 

人 工 智能 研究 计算 和 知识 之 间 的 关系 。 用 机 器 去 模拟 人 的 智能 ,使 机 器 具有 类 似 于 
人 的 智能 ,其 本 质 是 研究 如 何 构 造 智能 机 器 或 智能 系统 ,以 模拟 、 延 伸 、 扩 展 人 类 的 智能 。 
人 工 智能 技术 包括 推理 技术 ,搜索 技术 、 知 识 表示 与 知识 库 技术 、 归 纳 技 术 、 联 想 技术 、 分 


类 技术 、 聚 类 技术 等 ,其 中 最 基本 的 三 种 技术 即 知识 表示 、 推 理 和 搜索 都 在 数据 挖掘 中 得 
到 了 体现 。 


9. 决策 树 (Decision Tree) 技 术 


决策 树 技术 主要 指 的 是 针对 给 定 的 一 组 样本 数据 ,根据 其 对 应 的 规则 ,最 终 选 取 相 应 
的 一 组 动作 。 决 策 树 方法 是 利用 训练 集 生成 一 个 测试 函数 ,根据 不 同 的 取 值 建立 树 的 分 
支 ;在 每 个 分 支 子 集中 重复 建立 下 层 节点 和 分 支 。 这 样 便 生 出 一 棵 决策 树 ,然后 对 决策 树 
进行 剪 枝 处 理 , 最 后 把 决策 树 转化 为 规则 ,决策 树 方法 主要 用 于 分 类 挖掘 。 国 际 上 最 早 ， 
也 是 最 有 影响 的 决策 树 方法 是 在 1986 年 由 Quinlan 提出 的 ID3 。 


10. 统计 分 析 (Statistical Analysis) 方 法 


统计 学 在 数据 样本 选择 .数据 预 处 理 .数据 挖掘 过 程 及 评价 抽取 知识 的 步骤 中 有 着 非 
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常 重要 的 作用 。 许 多 统计 学 的 工作 是 针对 数据 和 假设 检验 的 模型 进行 评价 的 ,也 包括 评 
价 数 据 挖掘 的 结果 。 在 数据 预 处 理 步骤 中 ,统计 学 提出 了 估计 噪声 参数 过 程 中 要 用 的 平 
滑 处 理 技术 ,一定 程度 上 补足 丢失 数据 和 消除 奇异 值 对 结果 的 负面 影响 作用 。 数 据 总 结 
的 最 简单 的 方法 就 是 传统 的 统计 方法 ,还 可 利用 图 形 工具 ,将 结果 直观 地 提供 给 分 析 者 。 
多 元 统计 分 析 能 在 一 定 程 度 上 达到 数据 挖掘 的 目的 ,在 数据 挖掘 的 数据 收集 .清理 环节 发 
挥 作用 。 


11. 知识 获取 (Knowledge Acquisition) ,知识 表示 (Knowledge Representation) .知识 
推理 (Knowledge Reasoning) 和 知识 搜索 (Knowledge Search) 技 术 


知识 表示 是 指 在 计算 机 中 对 知识 的 一 种 描述 ,是 一 种 计算 机 可 以 接受 的 用 于 描述 知 
识 的 数据 结构 。 知 识 推 理 技术 从 已 知 的 事实 出 发 ,运用 已 掌握 的 知识 ,或 归纳 出 新 的 知 
识 。 知 识 搜 索 是 根据 问题 的 实际 情况 不 断 寻 找 可 利用 的 知识 ,从 而 构造 一 条 代价 较 小 的 


12. 决策 与 控制 理论 (Decision and Control) 


传统 的 决策 支持 系统 (Decision Support System,DSS) 通 常 是 在 某 个 假设 的 前 提 下 通 
过 数据 查询 和 分 析 来 验证 或 否定 这 个 假设 ,而 数据 挖掘 技术 则 能 够 自动 分 析 数 据 , 进 行 归 
纳 整理 ,从 中 发 现 潜在 的 模式 ,或 产生 联想 ,建立 新 的 业务 模型 ,帮助 决策 者 调整 市 场 策略 
并 找 出 正确 的 决策 。 数 据 挖掘 的 出 现 使 决策 支持 工具 跨 入 了 一 个 新 阶段 。 数 据 挖掘 技术 
的 兴起 为 智能 决策 支持 系统 (Intelligent Decision Support System,IDSS) 的 研究 指明 了 一 
个 新 的 方向 , 即 基于 数据 挖掘 的 IDSS。 


13. 可 视 化 技术 (Visual Technology) 


该 方法 采用 直观 的 图 形 图 表 方 式 将 挖掘 出 来 的 模式 加 以 表现 ,数据 可 视 化 大 大 扩展 
了 数据 的 表达 能 力 从 而 也 便于 用 户 的 理解 。 因 此 ,数据 挖掘 中 的 可 视 化 技术 得 到 数据 挖 
据 研 究 人 员 日 益 广泛 的 重视 。 


14. 并 行 计算 技术 (Parallel Computing Technologies) 和 海量 存储 (Mass Storage) 


强大 的 并 行 处 理 计算 机 可 以 提高 数据 挖掘 的 应 用 ,因为 并 行 处 理 技术 可 以 将 一 个 复 
杂 的 查询 分 解 成 多 个 子 查询 ,每 个 子 查询 交 给 不 同 的 处 理 器 ,这 一 处 理 过 程 是 并 行 执行 
的 。 因此, 并行 处 理 技术 可 以 大 大 加 速 数 据 挖掘 的 过 程 。 

现在 的 数据 仓库 存储 的 数据 量 是 GB 到 TB 级 别 , 随 着 时 间 的 推移 ,可 能 会 扩展 几 百 
倍 , 因 此 ,廉价 可 行 的 存储 技术 对 于 数据 挖掘 来 说 变 得 非常 重要 。 目 前 ,普遍 采用 的 是 二 
级 存储 技术 , 即 磁盘 ( 磁 光 盘 ) 一 主 存 两 级 存储 ,由 于 缺乏 快速 的 访问 和 存储 磁盘 技术 , 随 
着 存储 容量 的 增长 .数据 挖掘 查询 越 来 越 复杂 以 及 并 行 处 理 器 速度 的 加 快 ,存储 技术 可 能 
会 成 为 数据 挖掘 的 新 瓶颈 。 

综 上 所 述 ,数据 挖掘 的 常用 技术 ,如 图 1-1 所 示 。 
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图 1-1 数据 挖掘 的 常用 技术 


1.4.2 数据 挖掘 的 工具 


1. 基于 神经 网 络 的 工具 


神经 网 络 用 于 分 类 ,特征 挖掘 、 预 测 和 模式 识别 。 人 工 神 经 网 络 仿真 生物 神经 网 络 ， 
本 质 上 是 一 个 分 散 型 或 矩阵 结构 , 它 通 过 训练 数据 的 挖掘 ,逐步 计算 网 络 连接 的 加 权 值 ， 
由 于 对 非 线性 数据 具有 快速 建 模 能 力 , 基 于 神经 网 络 的 数据 挖掘 工具 现在 越 来 越 流行 。 
其 开采 过 程 基本 上 是 将 数据 聚 类 ,然后 分 类 计算 权 值 。 神 经 网 络 很 适合 分 析 非 线性 数据 
和 含 噪声 数据 ,所 以 在 市 场 数据 库 的 分 析 和 建 模 方面 应 用 广泛 。 


2. 基于 规则 和 决策 树 的 工具 


大 部 分 数据 挖掘 工具 采用 规则 发 现 或 决策 树 分 类 技术 来 发 现 数据 模式 和 规则 ,其 核 
心 是 某 种 归纳 算法 。 这 类 工具 通常 是 对 数据 库 的 数据 进行 开采 ,产生 规则 和 决策 树 ,然后 
对 新 数据 进行 分 析 和 预测 。 其 主要 优点 是 : 规则 和 决策 树 都 是 可 读 的 。 

3. 基于 模糊 逻辑 的 工具 

该 方法 应 用 模糊 迎 辑 进行 数据 查询 ,排序 等 。 它 使 用 模糊 概念 和 “最 近 ” 搜 索 技术 的 
数据 查询 工具 ,可 以 让 用 户 制定 目标 ,然后 对 数据 库 进 行 搜索 , 找 出 接近 目标 的 所 有 记录 ， 
并 对 结果 进行 评估 。 

4. 综合 多 方法 的 工具 

不 少数 据 挖掘 工具 采用 了 多 种 开采 方法 ,这 类 工具 一 般 规 模 较 大 ,适用 于 大 型 数据 库 
(包括 并 行 数据 库 )。 这 类 工具 开采 能 力 很 强 , 但 价格 昂贵 ,并 要 花 很 长 时 间 进行 学 习 。 


1.5 数据 挖掘 的 应 用 热点 


数据 挖掘 技术 源 于 商业 的 直接 需求 ,并 在 各 种 领域 都 有 广泛 的 使 用 价值 。 数 据 挖掘 
已 在 金融 、 零 售 、 医 药 、 通 信 、 电 子 工程 .航空 .旅馆 等 具有 大 量 数据 和 深度 分 析 需 求 . 易 产 
生 大 量 数字 信息 的 领域 得 到 广泛 使 用 ,并 带 来 了 巨大 的 社会 效益 和 经 济 效益 。 它 既 可 以 


12 


检验 行业 内 长 期 形成 的 知识 模式 ,也 能 够 发 现 隐 藏 的 新 规律 。 将 数据 挖掘 用 于 企业 信息 
管理 ,虽然 面临 着 很 大 的 挑战 和 许多 急 待 解 决 的 问题 ,但 有 充分 的 理由 相信 ,这 些 问 题 将 
随 着 各 应 用 领域 的 信息 化 推进 逐步 得 到 解决 ,数据 挖掘 的 应 用 前 景 十 分 乐观 。 


1. 金融 领域 的 应 用 


在 金融 方面 ,银行 和 金融 机 构 往往 持 有 大 量 关于 客户 的 、 各 种 服务 的 以 及 交易 事务 的 
数据 ,并 且 这 些 数据 通常 比较 完整 可 靠 和 高 质量 ,这 大 大 方便 了 系统 化 的 数据 分 析 和 数据 
挖掘 。 在 银行 业 中 ,数据 挖掘 被 用 来 建 模 、 预 测 ,识别 伪造 信用 卡 , 估 计 风 险 , 进 行 趋势 分 
析 、 效 益 分 析 、 顾 客 分 析 等 。 在 此 领域 运用 数据 挖掘 ,可 以 进行 贷款 偿付 预测 和 客户 信 
政策 分 析 以 调整 贷款 发 放 政策 ,降低 经 营 风险 。 信 用 卡 公 司 可 以 应 用 数据 挖掘 中 的 关联 
规则 来 识别 欺诈 。 股 票 交易 所 和 银行 也 有 这 方面 的 需要 。 对 目标 客户 群 进行 分 类 及 聚 
类 ,以 识别 不 同 的 客户 群 ,为 不 同 的 客户 提供 更 好 的 服务 ,以 推动 市 场 。 此 外 ,还 可 以 运用 
数据 分 析 工 具 找 出 异常 模式 ,以 侦破 洗钱 和 其 他 金融 犯罪 活动 。 智 能 数据 挖掘 利用 了 广 
泛 的 高 质量 的 机 器 学 习 算法 ,能够 在 应 付 大 量 数 据 的 同时 保证 理想 的 响应 时 间 ,使 得 市 场 
分 析 、 风 险 预 测 .欺诈 管理 、 客 户 关系 管理 和 竞争 优势 分 析 等 应 用 成 为 可 能 。 


2. 网 络 金融 交易 方面 


从 网 络 金融 角度 来 看 ,网 络 金融 是 指 通 过 互联 网 进行 的 金融 交易 。 这 种 交易 具有 速 
度 快 、 交 易 量 大 ,交易 次 数 多 .交易 人 所 在 地 分 散 的 特点 。 这 种 基于 生产 力 水 平 的 加 速 党 
常 超出 生产 力 本 身 的 发 展 速度 ,使 人 类 进入 脆弱 的 虚拟 经 济 时 代 。 在 股市 交易 中 ,人 们 的 
兴趣 在 于 预测 股市 起 伏 , 并 且 各 种 各 样 的 算法 都 曾经 被 使 用 过 。 有 的 算法 在 一 种 情况 下 
有 效 或 在 一 段 时 间 内 有 效 , 有 的 算法 更 能 捕捉 转瞬 即 逝 的 个 股 买 /卖点 或 在 众多 股票 中 选 
出 应 买卖 的 股票 。 金 融 时 序数 据 是 一 种 常见 的 数据 结构 ,在 这 方面 ,已 有 不 少 学 者 研究 了 
对 其 进行 挖掘 的 一 般 性 问题 或 框架 。 对 股市 进行 动态 数据 挖掘 ,可 以 随时 掌握 由 大 量 数 
据 所 反映 的 金融 市 场 暗流 。 此 外 ,还 可 以 将 监管 搜索 范围 完全 扩大 到 一 般 的 网 页 上 ,借助 
一 定 的 文字 分 析 技术 提高 准确 率 。 

男 一 方面 的 应 用 是 研究 股市 炒作 的 快速 检测 算法 和 技术 。 互 联网 的 出 现 和 使 用 也 只 
是 近 十 余年 的 事 , 而 标志 着 金融 领域 重要 突破 的 中 国 股市 的 产生 和 发 展 也 正好 在 这 十 余 
年 。 电 子 交 易 每 天 产生 的 海量 数据 已 超出 人 工 处 理 的 能 力 ,但 这 正 使 得 应 用 计算 机 算法 
进行 智能 自动 监控 成 为 可 能 。 从 证 监 会 的 角度 看 ,可 以 通过 各 种 交易 数据 发 现 异 常 现象 
和 相应 的 操作 ,识别 出 哪些 是 合法 炒作 ,哪些 是 非法 炒作 。 


3. 零售 业务 应 用 


在 零售 业 方面 ,计算 机 使 用 率 越 来 越 高 ,大 型 超市 大 多 配备 了 完善 的 计算 机 及 数据 库 
系统 。 零 售 业 积累 的 大 量 销售 数据 ,顾客 购买 历史 记录 、 货 物 进出 与 服务 记录 等 数据 中 真 
正 有 价值 的 信息 是 哪些 ? 这 些 信 息 之 间 有 哪些 关联 ? 回答 这 些 问题 就 需要 对 大 量 的 数据 
进行 深层 分 析 , 从 而 获得 有 利于 商业 运作 、 提 高 竞争 力 的 信息 。 数 据 挖掘 技术 有 助 于 识别 
顾客 购买 行为 ,发 现 顾客 购买 模式 和 趋势 ,改进 服务 质量 ,取得 更 高 的 顾客 保持 力 和 满意 
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程度 ,降低 零售 业 成 本 。 

通常 企业 所 掌握 的 客户 信息 特别 是 以 前 购买 行为 的 信息 中 ,可 能 正 包含 着 这 个 客户 
决定 他 下 一 个 购买 行为 的 关键 信息 ,甚至 是 决定 性 因素 。 这 个 时 候 的 数据 挖掘 的 作用 就 
体现 为 它 可 以 帮助 企业 寻找 到 那些 影响 顾客 购买 行为 的 信息 和 因素 。 对 这 些 丰 富 数据 资 
源 的 挖掘 ,有 助 于 识别 顾客 购买 行为 ,发 现 顾客 购买 模式 和 趋势 ,改进 服务 质量 ,取得 更 高 
的 顾客 满意 程度 ,提高 销量 。 

还 有 一 个 问题 就 是 研究 超市 顾客 的 购买 行为 ,这 是 一 种 典型 的 时 间 序 列 挖掘 问题 ,在 
零售 服务 业 中 ,直接 给 潜在 的 顾客 寄 广 告 是 一 种 常见 的 办 法 。 通 过 分 析 人 们 的 购买 模式 ， 
估计 他 们 的 收入 和 孩子 数目 ,作为 潜在 的 市 场 信息 。 在 庞大 的 数据 集中 找 出 哪些 人 适合 
寄 广告 或 折扣 券 , 哪 些 人 会 喜欢 哪 一 类 的 折扣 券 , 哪 些 人 应 给 予 的 折扣 多 些 , 哪 些 产品 摆 
在 一 起 会 比分 别 放 在 各 自 的 类 中 卖 得 更 快 更 多 ,这 都 成 了 数据 挖掘 的 任务 。 

零售 业 中 数据 挖掘 的 成 功 应 用 包括 : 销售 、 顾 客 、 产 品 \ 时 间 和 地 区 的 多 维 分 析 ; 
@ 对 促销 活动 有 效 性 的 分 析 , 以 此 提高 企业 利润 ; 四 对 顾客 忠诚 度 的 分 析 , 以 留 住 老 客 
户 ,吸引 新 客户 ; @ 挖 掘 关联 信息 ,以 形成 购买 推荐 和 商品 参照 ,以 帮助 顾客 选择 商品 , 提 
高 销量 。 


4. 医疗 电信 和 领域 应 用 


在 医疗 领域 中 ,成 堆 的 电子 数据 可 能 已 放 在 那里 很 多 年 了 ,如 病人 ,症状 ,发 病 时 间 、 
发 病 频 率 以 及 当时 的 用 药 种 类 ,剂量 .住院 时 间 等 。 在 药物 实验 中 ,可 能 有 很 多 这 种 方法 
已 经 被 许多 大 的 制药 公司 所 采用 。 生 物 医学 的 大 量 研究 大 都 集中 在 DNA 数据 的 分 析 
上 ,人 类 大 约 有 105 个 基因 ,几乎 不 计 其 数 。 因 此 ,数据 挖掘 成 为 DNA 分 析 中 的 强大 工 
具 , 如 对 DNA 序列 时 间 的 相似 搜索 和 比较 ;应 用 关联 分 析 对 同时 出 现 的 基因 序列 的 识 
别 ; 应 用 路 径 分 析 发 现在 疾病 不 同 阶段 的 致 病 基因 等 。 

电信 业已 经 迅速 从 单纯 的 提供 市 话 和 长 话 服 务 演变 为 综合 电信 服务 ,如 语音 ,传真 、 
寻 呼 、 移 动 电话 、 图 形 .电子 邮件 、 互 联网 接 人 服务 等 。 电 信 市 场 的 竞争 也 变 得 越 来 越 激烈 
和 全 方位 化 。 目 前 ,不 管 是 住宅 电话 还 是 移动 电话 ,每 天 的 使 用 量 很 大 。 对 电话 公司 来 
讲 , 如 何 充 分 使 用 这 些 数据 为 自己 赢得 更 多 的 利润 就 成 了 主要 问题 。 利 用 数据 挖掘 来 帮 
助理 解 商 业 行 为 ,对 电信 数据 的 多 维 分 析 、 检 测 非典 型 的 使 用 模式 以 寻找 潜在 的 盗用 者 、 
分 析 用 户 一 系列 的 电信 服务 使 用 模式 来 改进 服务 、 根 据 地 域 分 布 朴 密 性 找 出 最 急需 建立 
网 点 的 位 置 确定 电信 模式 ,捕捉 盗用 行为 .更 好 地 利用 资源 和 提高 服务 质量 ,是 非常 必要 
的 。 借 助 数 据 挖掘 ,可 以 减少 很 多 损失 ,保住 顾客 。 

数据 挖掘 在 电信 业 的 应 用 包括 : 对 电信 数据 的 多 维 分 析 ; @ 检 测 非典 型 的 使 用 模式 
以 寻找 潜在 的 次 用 者 ; @ 分 析 用 户 一 系列 的 电信 服务 使 用 模式 来 改进 服务 ; @ 搅 拌 分 析 等 。 


1.6 小 结 


数据 库 技术 已 经 从 原始 的 数据 处 理发 展 到 开发 具有 事务 处 理 能 力 的 数据 库 管理 系 
统 。 进 一 步 的 发 展 导致 越 来 越 需要 有 效 的 数据 分 析 ,数据 挖掘 和 数据 理解 工具 ,这 种 需求 
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是 各 种 应 用 (如 商务 管理 ,行政 管理 以 及 环境 控制 等 ) 收 集 的 数据 爆炸 性 增长 的 必然 结果 。 
本 章 详 细 分 析 了 数据 挖掘 中 的 一 些 基本 概念 ,阐述 了 数据 挖掘 技术 的 历史 和 发 展 ,总 结 了 
数据 挖掘 的 内 容 和 功能 ,分 析 了 现 有 数据 挖掘 技术 和 工具 ,同时 介绍 了 数据 挖掘 的 应 


热点 。 


1. 什么 是 数据 挖掘? 

2. 简 述 数据 挖掘 所 发 现 的 最 常见 的 5 类 知识 。 

3. 定义 下 列 数据 挖掘 功能 : 特征 化 、 区 分 关联 分类、 预测 、 聚 类 和 演变 分 析 。 
4. 列举 数据 挖掘 的 相关 技术 。 


第 2 章 数据 预 处 理 


2.1 数据 预 处 理 的 目的 


数据 预 处理 (Data Preprocessing) 是 指 在 对 数据 进行 数据 挖掘 的 主要 处 理 以 前 , 先 对 
原始 数据 进行 必要 的 清理 、 集 成, 转换、 离散 和 归 约 等 一 系列 的 处 理工 作 , 以 达到 挖掘 算法 
进行 知识 获取 的 目的 并 研究 所 要 求 的 最 低 规范 和 标准 。 

数据 挖掘 的 对 象 是 从 现实 世界 采集 到 的 大 量 的 各 种 各 样 的 数据 。 由 于 现实 生产 和 实 
际 生活 以 及 科学 研究 的 多 样 性 ,不 确定 性 、 复 杂 性 等 ,导致 我 们 采集 到 的 原始 数据 比较 散 
乱 ,它们 是 不 符合 挖掘 算法 进行 知识 获取 研究 所 要 求 的 规范 和 标准 的 ,主要 具有 以 下 
特征 。 

(1) 不 完整 性 。 不 完整 性 指 的 是 数据 记录 中 可 能 会 出 现 有 些 数据 属性 的 值 丢 失 或 不 
确定 的 情况 ,还 有 可 能 缺失 必需 的 数据 。 这 是 由 于 系统 设计 时 存在 的 缺陷 或 者 使 用 过 程 
中 一 些 人 为 因素 所 造成 的 ,如 有 些 数据 缺失 只 是 因为 输入 时 认为 是 不 重要 的 ,相关 数据 没 
有 记录 可 能 是 由 于 理解 错误 ,或 者 因为 设备 故障 ,与 其 他 记录 不 一 致 的 数据 可 能 已 经 删 
除 , 历 史记 录 或 修改 的 数据 可 能 被 忽略 等 。 

(2) 含 噪 声 。 含 噪声 指 的 是 数据 具有 不 正确 的 属性 值 ,包含 错误 或 存在 偏离 期 望 的 
离 群 值 。 产 生 的 原因 很 多 ,如 收集 数据 的 设备 可 能 出 故障 ,人 或 计算 机 的 错误 可 能 在 数据 
输入 时 出 现 , 数 据 传输 中 也 可 能 出 现 错误 等 。 不 正确 的 数据 也 可 能 是 由 命名 约定 或 所 用 
的 数据 代码 不 一 致 ,或 输入 字段 (如 时 间 ) 的 格式 不 一 致 而 导致 的 。 实 际 使 用 的 系统 中 ,还 
可 能 存在 大 量 的 模糊 信息 ,有些 数据 甚至 还 具有 一 定 的 随机 性 。 

(3) 杂乱 性 (不 一 致 性 )。 原 始 数据 是 从 各 个 实际 应 用 系统 中 获取 的 ,由 于 各 应 用 系 
统 的 数据 缺乏 统一 标准 的 定义 ,数据 结构 也 有 较 大 的 差异 ,因此 各 系统 间 的 数据 存在 较 大 
的 不 一 致 性 ,往往 不 能 直接 拿 来 使 用 。 同 时 来 自 不 同 的 应 用 系统 中 的 数据 ,由 于 合并 还 普 
遍 存 在 数据 的 重复 和 信息 的 元 余 现 象 。 

因此 ,存在 不 完整 的 、 含 噪声 的 和 不 一 致 的 数据 是 现实 世界 大 型 的 数据 库 或 数据 仓库 
的 共同 特点 。 一 些 比较 成 熟 的 算法 对 其 处 理 的 数据 集合 一 般 都 有 一 定 的 要 求 , 如 数据 完 
整 性 好 ,数据 的 元 余 性 少 、 属 性 之 间 的 相关 性 小 。 然 而 ,实际 系统 中 的 数据 一 般 都 不 能 直 
接 满足 数据 挖掘 算法 的 要 求 ,因此 我 们 必须 对 数据 进行 预 处 理 , 以 提高 数据 质量 ,使 其 符 
合 挖掘 算法 的 规范 和 要 求 。 常 见 的 数据 预 处 理 方法 有 数据 清理 、 数 据 集成 .数据 变换 和 数 
据 归 约 。 图 2-1 给 出 了 数据 预 处 理 的 典型 形式 。 

(1) 数据 清理 (Data Cleaning) : 数据 清理 通常 包括 填补 遗漏 的 数据 值 . 平 滑 有 噪声 数 
据 、 识 别 或 除去 异常 值 以 及 解决 不 一 致 问题 。 

(2) 数据 集成 (Data Integration): 就 是 将 来 自 多 个 数据 源 的 数据 合并 到 一 起 ,形成 
一 致 的 数据 存储 ,如 将 不 同 数据 库 中 的 数据 集成 到 一 个 数据 仓库 中 存储 。 有 时 数据 集成 
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图 2-1 数据 预 处 理 的 方法 


之 后 还 需要 进行 数据 清理 以 便 消 除 可 能 存在 的 数据 宛 余 。 

(3) 数据 变换 (Data Transformation) : 主要 是 将 数据 转换 成 适合 于 挖掘 的 形式 ,如 将 
属性 数据 按 比 例 缩放 ,使 之 落 入 一 个 比较 小 的 特定 区 间 ,这 一 点 对 那些 基于 距离 的 挖掘 算 
法 尤为 重要 。 数 据 变换 的 具体 方法 包括 平滑 处 理 、 聚 集 处 理 .数据 泛 化 处 理 .规格 化 、 属 性 
构造 。 

(4) 数据 归 约 (Data Reduction) : 在 不 影响 挖掘 结果 的 前 提 下 ,通过 数值 聚集 、 删 除 
宛 余 特性 的 办 法 压缩 数据 ,提高 挖掘 模式 的 质量 ,降低 时 间 复 杂 度 。 

以 上 的 数据 预 处 理 并 不 互 斥 ,例如 , 宛 余数 据 的 删除 既是 数据 清理 ,也 是 数据 规约 。 
数据 预 处 理 流程 如 图 2-2 所 示 。 


2.2 数据 清理 
2.2.1 填充 缺失 值 
很 多 的 数据 都 有 缺失 值 。 例 如 ,银行 房屋 贷款 信用 风险 评估 中 的 客户 数据 ,其 中 的 一 


些 属 性 可 能 没有 记录 值 , 如 客户 的 家 庭 月 总 收入 。 填 充 丢 失 的 值 , 可 以 用 下 面 的 方法 : 
(1) 忽略 元 组 : 当 缺 少 类 标号 时 通常 这 样 做 (假定 挖掘 任务 涉及 分 类 )。 除 非 元 组 有 
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二 次 预 处 理 
图 2-2 ”数据 预 处 理 流程 


多 个 属性 缺少 值 ,否则 该 方法 就 不 是 很 有 效 , 当 每 个 属性 缺少 值 的 百分比 变化 很 大 时 , 它 
的 性 能 就 特别 差 。 

(2) 人 工 填写 缺失 值 : 此 方法 很 费时 ,特别 是 当 数 据 集 很 大 、 缺 少 很 多 值 时 ,该 方法 
可 能 不 具有 实际 的 可 操作 性 。 

(3) 使 用 一 个 全 局 常量 填充 缺失 值 : 将 缺失 的 属性 值 用 同一 个 常数 (如 Unknown) 替 
换 。 但 这 种 方法 因为 大 量 地 采用 同一 个 属性 值 可 能 会 误导 挖掘 程序 得 出 有 偏差 甚至 错误 
的 结论 ,因此 要 小 心 使 用 。 

(4) 用 属性 的 均值 填充 缺失 值 : 例如 ,已 知 重庆 市 某 银行 的 贷款 客户 的 平均 家 庭 月 
总 收入 为 9000 元 , 则 使 用 该 值 替 换 客户 收入 中 的 缺失 值 。 

(5) 用 同类 样本 的 属性 均值 填充 缺失 值 : 例如 ,将 银行 客户 按 信用 度 分 类 ,就 可 以 用 
信用 度 相同 的 贷款 客户 的 家 庭 月 总 收入 替换 家 庭 月 总 收入 中 的 缺失 值 。 

(6) 使 用 最 可 能 的 值 填充 缺失 值 : 可 以 用 回归 、 贝 叶 斯 形式 化 的 基于 推理 的 工具 或 
决策 树 归纳 确定 。 例 如 ,利用 数据 集中 其 他 客户 顾客 的 属性 ,可 以 构造 一 棵 决策 树 来 预测 
家 庭 月 总 收入 的 缺失 值 。 

需要 注意 的 是 ,在 某 些 情况 下 缺失 值 并 不 意味 数据 有 错误 。 例 如 ,在 申请 信用 卡 时 ， 
可 能 要 求 申 请 人 提供 驾驶 执照 号 ,而 没有 驾驶 执照 的 申请 者 自然 使 该 字段 为 空 。 表 格 应 
当 允 许 填 表 人 使 用 诸如 “无 效 ” 等 值 ,软件 程序 也 可 以 用 来 发 现 其 他 空 值 , 如 “不 知道 ”、“?” 
或 “无 "。 理 想 情况 下 ,每 个 属性 都 应 当 有 一 个 或 多 个 关于 空 值 条 件 的 规则 。 这 些 规 则 可 
以 说 明 是 否 允 许 空 值 , 并 且说 明 这 样 的 空 值 应 当 如 何 处 理 或 转换 。 字 段 也 可 能 故意 留 下 
空白 ,如 果 它 们 在 商务 处 理 的 最 后 一 步 未 提供 值 。 因 此 ,尽管 我 们 可 以 在 得 到 数据 后 尽 最 
大 努力 进行 数据 清理 ,但 数据 库 和 数据 输入 的 良好 设计 将 有 助 于 在 第 一 现场 最 小 化 缺失 
值 或 错误 的 数量 。 


2.2.2 光滑 噪声 数据 
噪声 (Noise) 是 指 被 测量 变量 的 随机 误差 或 方差 。 给 定 一 个 数值 属性 ,如 Price, 我 们 


怎样 才能 “光滑 "数据 去 掉 噪 声 ? 常见 的 数据 光滑 技术 包含 如 下 几 种 。 
(1) 分 箱 (Binning) : 分 箱 方法 通过 考察 数据 的 近邻” 即 周围 的 值 ) 来 光滑 有 序数 据 
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的 值 ,有 序 值 分 布 到 一 些 “ 桶 "或 箱 中 。 由 于 分 箱 方法 考察 近邻 的 值 ,因此 用 来 进行 局 部 光 
滑 。 一 般 来 说 ,宽度 越 大 光滑 效果 越 大 , 箱 也 可 以 是 等 宽 的 , 即 每 个 箱 值 的 区 间 范 围 是 个 
常量 。 

【 例 2.1】 茶 课程 成 绩 score 排序 后 的 数据 为 : 61,66,68,73,77,78,85,88,91。 

将 上 述 排序 的 数据 划分 为 等 深 (深度 为 3) 的 箱 ( 桶 ), 如 下 所 示 : 

箱 1: 61, 66, 68 

箱 2: 73, 77, 78 

箱 3: 85, 88, 91 

采用 分 箱 平滑 技术 后 ,用 平均 值 平滑 得 到 如 下 结果 : 

箱 1: 65, 65, 65 

箱 2: 76, 76, 76 

箱 3: 88, 88, 88 

用 边界 值 平滑 得 到 如 下 结果 : 

箱 1: 61, 68, 68 

箱 2: 73, 78, 78 

箱 3: 85, 85, 91 

(2) 回归 : 可 以 用 一 个 函数 (如 回归 函数 ) 进 行 数据 拟 合 来 达到 光滑 数据 的 目的 。 线 
性 回归 涉及 找 出 拟 合 两 个 属性 (或 变量 ) 的 “最 佳 " 线 , 使 得 一 个 属性 可 以 用 来 预测 另 一 个 
属性 。 多 元 线性 回归 是 线性 回归 的 扩展 ,其 中 涉及 的 属性 多 于 两 个 ,并 且 数 据 拟 合 到 一 个 
多 维 曲面 。 

(3) 聚 类 : 可 以 通过 聚 类 检测 离 群 点 ,将 类 似 的 值 组 织 成 群 或 “得 ”。 直 观 地 , 落 在 徐 
集合 之 外 的 值 视 为 离 群 点 。 许 多 数据 光滑 的 方法 也 是 涉及 离散 化 的 数据 归 约 方法 。 例 
如 ,上 面 介绍 的 分 箱 技术 减少 了 每 个 属性 的 不 同 值 数 量 。 对 于 基于 逻辑 的 数据 挖掘 方法 
(如 决策 树 归纳 ), 反 复 地 对 排序 后 的 数据 进行 比较 ,这 充当 了 一 种 形式 的 数据 归 约 。 概 念 
分 层 是 一 种 数据 离散 化 形式 ,也 可 以 用 于 数据 光滑 。 


2.2.3 数据 清理 过 程 


数据 清理 过 程 包含 如 下 两 个 步骤。 

(1) 偏差 检测 (Discrepancy Detection) 。 发 现 噪声 . 离 群 点 和 需要 考察 的 不 寻常 的 值 
时 ,可 以 使 用 已 有 的 关于 数据 性 质 的 知识 。 这 种 知识 或 “关于 数据 的 数据 ”" 称 为 元 数据 。 
考察 每 个 属性 的 定义 域 和 数据 类 型 .每 个 属性 可 接受 的 值 、 值 的 长 度 范围 ;考察 是 否 所 有 
的 值 都 落 在 期 望 的 值 域内 、 属 性 之 间 是 否 存在 已 知 的 依赖 :把 握 数据 趋势 和 识别 异常 ,如 
远离 给 定 属性 均值 超过 两 个 标准 差 的 值 可 能 标记 为 潜在 的 离 群 点 。 另 一 种 错误 是 源 编码 
使 用 的 不 一 致 问 题 和 数据 表示 的 不 一 致 问题 (如 日 期 *2009/09/25” 和 “25/09/2009”)。 而 
字段 过 载 (Field Overloading) 是 男 一 类 错误 源 。 考 察 数据 还 要 遵循 唯一 性 规则 、 连 续 性 
规则 和 空 值 规则 。 可 以 使 用 其 他 外 部 材料 人 工地 加 以 更 正 某 些 数据 不 一 致 。 如 数据 输入 
时 的 错误 可 以 使 用 纸 上 的 记录 加 以 更 正 , 但 大 部 分 错误 需要 数据 变换 。 
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(2) 偏差 纠正 (Discrepancy Correction) 。 也 就 是 说 ,一 旦 发 现 偏差 ,通常 我 们 需要 定 
义 并 使 用 一 系列 变换 来 纠正 它们 。 商 业 工 具 可 以 支持 数据 变换 步骤 ,但 这 些 工具 只 支持 
有 限 的 变换 ,因此 ,我 们 常常 可 能 选择 为 数据 清理 过 程 的 这 一 步 编写 定制 的 程序 。 

偏差 检测 和 偏差 纠正 这 两 步 过 程 迭代 执行 。 随 着 我 们 对 数据 的 了 解 的 增加 ,重要 的 
是 要 不 断 更 新 元 数据 以 反映 这 种 知识 ,这 有 助 于 加 快 对 相同 数据 存储 的 未 来 版 本 的 数据 


2.3 数据 集成 和 数据 变换 
2.3.1 数据 集成 


数据 分 析 任务 大 多 涉及 数据 集成 。 数 据 集成 合并 多 个 数据 源 中 的 数据 ,存放 在 一 个 
一 致 的 数据 存储 (如 数据 仓库 ) 中 。 这 些 数 据 源 可 能 包括 多 个 数据 库 、 数 据 立方 体 或 一 般 
文件 ,在 数据 集成 时 ,有 许多 问题 需要 考虑 。 

(1) 模式 集成 和 对 象 匹配 问题 。 来 自 多 个 信息 源 的 现实 世界 的 等 价 实体 的 匹配 涉及 
实体 识别 问题 ,例如 ,如 何 判断 一 个 数据 库 中 的 Customer_ID 与 男 一 个 数据 库 中 的 Cust_ 
Number 是 否 是 相同 的 属性 。 每 个 属性 的 元 数据 可 以 用 来 帮助 避免 模式 集成 的 错误 ,元 
数据 还 可 以 用 来 帮助 变换 数据 。 

(2) 宛 余 问 题 。 一 个 属性 如 果 能 由 另 一 个 或 男 一 组 属性 导出”, 那么 该 属性 是 宛 余 
的 ,另外 ,属性 的 不 一 致 也 可 能 导致 结果 数据 集中 的 元 余 。 有 些 元 余 可 以 被 相关 分 析 方 法 
检测 到 。 假 设 给 定 两 个 属性 ,通过 这 种 相关 分 析 方 法 ,我 们 可 以 根据 可 用 的 数据 来 度量 一 
个 属性 能 在 多 大 程度 上 蕴含 男 一 个 属性 。 对 于 数值 属性 ,通过 计算 属性 A 和 B 之 间 的 相 
关系 数 来 估计 这 两 个 属性 的 相关 度 ra.a: 即 


N N 
Da—A)b—B) D(ab)—NAB 
i=1 i=1 


TAB (2-1) 


NaacB Noacs 
其 中 ,NN 是 元 组 个 数 ; a; 和 6b; 分 别 是 元 组 i 中 A 和 B 的 值 ;A 和 B 分 别 是 A 和 B 的 均值 ， 
o4 和 os 分 别 是 A 和 B 的 标准 差 .而 》)ab; 是 AB 又 积 的 和 ( 即 对 于 每 个 元 组 ,A 的 值 乘 
以 该 元 组 B 的 值 )。 注 意 ,一 1ra.s 三 十 1。 如 果 ra.s 大 于 0, 则 A 和 B 是 正 相 关 的 ,该 值 
越 大 ,相关 性 就 越 强 ( 即 每 个 属性 蕴涵 另 一 个 的 可 能 性 越 大 )。 因 此 ,一 个 较 高 的 ra,s 值 表 
明 A( 或 B) 可 以 作为 元 余 而 被 去 掉 。 如 果 结 果 值 等 于 0, 则 A 和 B 是 独立 的 ,不 存在 相 
关 , 如 果 结 果 值 小 于 0. 则 A 和 B 是 负 相 关 的 ,一 个 值 随 另 一 个 的 减少 而 增加 。 这 意味 每 
一 个 属性 都 阻止 男 一 个 出 现 。 

注意 ,相关 并 不 意味 因果 关系 。 也 就 是 说 ,如 果 A 和 B 是 相关 的 ,这 并 不 意味 A 导 
致 B 或 B 导致 A。 对 于 分 类 (离散 ) 数 据 ,两 个 属性 A 和 B 之 间 的 相关 联系 可 以 通过 Xx” 
( 卡 方 ) 检 验 发 现 。 

设 A 有 c 个 不 同 值 a1 ,as，,…,a.;B 有 r 个 不 同 值 51,5,,… .5b,。A 和 B 描述 的 数据 元 
组 可 以 用 一 个 相依 表 显示 ,其 中 A 的 c 个 值 构成 列 ,B 的 7 个 值 构 成 行 。 令 (A;,B;) 表示 
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属性 A 取 值 a;、 属 性 B 取 值 5; 的 事件 , 即 (A 二 a;,B=b,)。 每 个 可 能 的 (A;,B,) 联合 事件 
都 在 表 中 有 自己 的 单元 (或 位 置 ).X* 值 (又 称 皮尔 逊 x 统计 量 ) 可 以 用 下 式 计算 。 


到 王 yy Ko). = (2-2) 
其 中 ,05 是 联合 事件 (A;,B;) 的 观测 频 度 ( 即 实际 计数 ) ;而 es 是 (A;,B;) 的 期 望 频 度 ,可 
以 用 下 式 计算 。 
_c(A=ai)Xc(B= 6b,) 
i N 
其 中 ,NN 是 数据 元 组 的 个 数 ;c (A 二 ai) 是 A 具有 值 a; 的 元 组 个 数 ; 而 c (B= 二 6) 是 B 具 
有 值 5 的 元 组 个 数 。 式 (2-2) 中 的 和 在 所 有 -Xe 个 单元 上 计算 。 对 x 值 贡 献 最 大 的 单 
元 是 其 实际 计数 与 期 望 计 数 很 不 相同 的 单元 。 

X 统计 检验 假设 A 和 B 是 独立 的 。 检 验 基 于 显著 水 平 ,具有 (7 一 1) X(c 一 1) 的 自由 
度 。 如 果 可 以 拒绝 该 假设 , 则 说 A 和 B 是 统计 相关 的 或 关联 的 。 

除了 检测 属性 间 的 宛 余 外 ,还 应 当 在 元 组 级 检测 重复 。 去 规范 化 表 的 使 用 也 可 能 导 
致 数据 元 余 。 不 一 致 通常 出 现在 各 种 不 同 的 副本 之 间 , 由 于 不 正确 的 数据 输入 ,或 者 由 于 
更 新 了 数据 的 部 分 出 现 , 但 未 更 新 所 有 的 出 现 。 

(3) 数据 值 冲突 的 检测 与 处 理 。 例 如 ,对 于 现实 世界 的 同一 实体 ,来 自 不 同 数据 源 的 
属性 值 可 能 不 同 。 这 可 能 是 因为 表示 、 比 例 或 编码 不 同 。 例 如 ,重量 属性 可 能 在 一 个 系统 
中 以 公制 单位 存放 ,而 在 另 一 个 系统 中 以 英制 单位 存放 。 对 于 连锁 旅馆 ,不 同城 市 的 房价 
不 仅 可 能 涉及 不 同 的 货币 ,而且 可 能 涉及 不 同 的 服务 (如 免费 早餐 ) 和 税 。 

在 一 个 系统 中 记录 的 属性 的 抽象 层 可 能 比 另 一 个 系统 中 “相同 的 "属性 低 。 数 据 集成 
中 将 一 个 数据 库 的 属性 与 男 一 个 匹配 时 ,要 考虑 数据 的 结构 用 来 保证 原 系统 中 的 属性 函 
数 依赖 和 参照 约束 与 目标 系统 中 的 匹配 。 数 据 语 义 的 异 构 和 结构 对 数据 集成 提出 了 巨大 
挑战 ,由 多 个 数据 源 小 心地 集成 数据 能 够 帮助 降低 和 避免 结果 数据 集中 的 元 余 和 不 一 致 ， 
从 而 提高 其 后 挖掘 过 程 的 准确 率 和 速度 。 


(2-3) 


全 


2.3.2 数据 变换 


数据 变换 的 目的 是 将 数据 转换 或 统一 成 适合 于 挖掘 的 形式 ,数据 变换 主要 涉及 以 下 
内 容 : 
(1) 光滑 : 即 去 掉 数据 中 的 噪声 ,这 种 技术 包括 分 箱 、 回 归 和 聚 类 等 。 

(2) 聚集 : 对 数据 进行 汇总 或 聚集 。 例 如 ,可 以 聚集 日 销售 数据 ,计算 月 和 年 销售 
量 。 通 常 ,这 一 步 用 来 为 多 粒度 数据 分 析 构 造 数据 立方 体 。 

(3) 数据 泛 化 : 使 用 概念 分 层 , 用 高 层 概念 蔡 换 低层 或 “原始 "数据 。 例 如 ,对 于 年 龄 
这 种 数值 属性 ,“ 原 始 数 据 ” 可 能 包含 20、30、40、50、60、70 等 ,可 以 将 上 述 数 据 映射 到 较 高 
层 的 概念 ,如 青年 、 中 年 和 老年 。 

(4) 规范 化 : 将 属性 数据 按 比例 缩放 ,使 之 落 入 一 个 小 的 特定 区 间 ,如 一 1. 0 一 1.0 或 
0.0~1.0。 规 范 化 可 以 消除 数值 型 属性 因 大 小 不 一 而 造成 的 挖掘 结果 偏差 。 对 于 分 类 算 
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法 ,如 涉及 神经 网 络 的 算法 或 诸如 最 临近 分 类 和 聚 类 的 距离 量度 分 类 算法 ,规范 化 特别 有 
用 。 如 果 使 用 神经 网 络 后 向 传播 (Back Propagation, BP) 算 法 进行 分 类 挖掘 ,训练 样本 的 
规范 化 能 够 提高 学 习 的 速度 。 有 许多 数据 规范 化 的 方法 ,常用 的 有 三 种 : 最 小 -最 大 规范 
化 、z-score 规范 化 和 按 小 数 定 标 规范 。 

(1) 最 小 -最 大 规范 化 : 假定 ma 和 Ma 分 别 为 属性 A 的 最 小 值 和 最 大 值 。 最 小 -最 大 
规范 化 通过 式 (2-4) 计 算 。 


1 vO—mA 
Ma— ma 


将 A 的 值 v 映射 到 区 间 [new_ma,new_Ma] 中 v。 

最 小 -最 大 规范 化 对 原始 数据 进行 线性 变换 ,保持 原始 数据 值 之 间 的 联系 。 如 果 今 
后 的 输入 落 在 A 的 原始 数据 值 域 之 外 ,该 方法 将 面临 "越界 "错误 。 

【 例 2.2】 假定 某 属性 的 最 小 与 最 大 值 分 别 为 8000 元 和 14 000 元 。 要 将 其 映射 到 
区 间 [0.0,1.0]。 按 照 最 小 -最 大 规范 化 方法 对 属性 值 进行 缩放 , 则 属性 值 12 600 元 将 
变 为 


v (new_Ma — new_ma)+ new_ma (2-4) 


12 600 一 8000 
14 000 一 8000 


(2) z-score 规范 化 ( 零 均值 规范 化 ) : 把 属性 A 的 值 v 基于 A 的 均值 和 标准 差 规范 
化 为 ww, 由 式 (2-5) 计 算 。 


(1.0 一 0.0) = 0.767 


v = (v—A)/on (2-5) 
其 中 ,A 和 va 分 别 为 属性 A 的 均值 和 标准 差 。 当 属性 A 的 实际 最 大 和 最 小 值 未 知 ,或 离 
群 点 左右 了 最 大 -最 小 规范 化 时 ,该 方法 是 有 用 的 。 
【 例 2.3】 假定 属性 平均 家 庭 月 总 收入 的 均值 和 标准 差分 别 为 9000 元 和 2400 元 ， 
值 10 600 元 使 用 z-score 规范 化 转换 为 


12 600—9000_ 
2400 


(3) 小 数 定 标 规范 化 : 通过 移动 属性 A 的 小 数 点 位 置 进 行规 范 化 。 小 数 点 的 移动 位 
数 依赖 于 A 的 最 大 绝对 值 。A 的 值 w 规范 化 为 w” ,由 式 (2-6) 计 算 。 

v = v/ 10’ (2-6) 
其 中 ,j 是 使 得 Max(|v |) 一 1 的 最 小 整数 。 

【 例 2.4】 假定 A 的 取 值 是 一 975~923。A 的 最 大 绝对 值 为 975。 使 用 小 数 定 标 规 
范 化 ,用 1000( 即 7 一 3) 除 每 个 值 ,这 样 , 一 975 规范 化 为 一 0. 975, 而 923 则 被 规范 化 为 
0. 923。 

规范 化 将 原来 的 数据 改变 ,特别 是 上 面 的 后 两 种 方法 。 有 必要 保留 规范 化 参数 (如 均 
值 和 标准 差 ,如 果 使 用 z-score 规范 化 ) ,以 便 将 来 的 数据 可 以 用 一 致 的 方式 规范 化 。 

(4) 属性 构造 (或 特征 构造 ): 由 已 有 的 属性 构造 和 添加 新 的 属性 ,以 帮助 挖掘 更 深 
层次 的 模式 知识 ,提高 挖掘 结果 的 准确 性 。 例 如 ,可 根据 属性 Height 和 Width 添加 属性 
Area。 属 性 构造 可 以 减少 使 用 判定 树 算法 分 类 的 分 裂 问题 。 通 过 组 合 属性 ,可 以 帮助 发 
现 所 遗漏 的 属性 间 的 相互 关系 ,而 这 对 于 数据 挖掘 是 十 分 重要 的 。 


1.5 
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2.4 数据 规约 


对 海量 数据 进行 复杂 的 数据 分 析 和 挖掘 将 需要 很 长 时 间 ,使 得 这 种 分 析 不 具有 可 操 
作 性 。 数 据 归 约 技术 可 以 用 来 得 到 数据 集 的 归 约 表示 , 它 比 原 数据 小 得 多 ,但 仍 接近 保持 
原 数 据 的 完整 性 。 这 样 ,对 归 约 后 的 数据 集 挖 气 将 更 有 效 ,并 产生 相同 (或 几乎 相同 ) 的 分 
析 结 果 。 用 于 数据 归 约 的 计算 时 间 不 应 当 超过 或 “抵消 ?对 归 约 数据 挖掘 节省 的 时 间 。 常 
见 的 数据 规约 的 方法 包括 数据 立方 体 聚集 、 维 规约 、 数 据 压缩 、 数 值 规约 以 及 数据 离散 化 
与 概念 分 层 等 ,下 面 逐 一 进行 介绍 。 


2.4.1 数据 立方 体 聚集 


数据 立方 体 聚集 主要 是 用 于 构造 数据 立方 体 ,数据 立方 体 存储 多 维 聚 集 信息 。 每 个 
单元 存放 一 个 聚集 值 , 对 应 于 多 维 空间 的 一 个 数据 点 ,每 个 属性 可 能 存在 概念 分 层 , 人 允许 
在 多 个 抽象 层 进行 数据 分 析 。 数 据 立方 体 提供 对 预计 算 的 汇总 数据 进行 快速 访问 ,因此 ， 
适合 联机 数据 分 析 处 理 和 数据 挖掘 。 

在 最 低 抽象 层 创建 的 立方 体 称 为 基本 方 体 (Base Cuboid)。 基 本 方 体 应 当 对 应 于 感 
兴趣 的 个 体 实体 。 即 最 低层 应 当 是 对 于 分 析 可 用 的 或 有 用 的 。 最 高 层 抽象 的 立方 体 称 为 
顶点 方 体 (Apex Cuboid) 。 对 不 同 抽象 层 创建 的 数据 立方 体 称 为 方 体 (Cuboid) ,因此 数 
据 立方 体 可 以 看 作 方 体 的 格 (Lattice of Cuboids) 。 每 个 较 高 层 抽象 将 进一步 减少 结果 数 
据 的 规模 。 当 回答 数据 挖掘 查询 时 ,应 当 使 用 与 给 定 任务 相关 的 最 小 可 用 方 体 。 


2.4.2 维 规约 


用 于 分 析 的 数据 集 可 能 包含 数 以 百 计 的 属性 ,其 中 大 部 分 属性 与 挖掘 任务 不 相关 或 
元 余 。 例 如 分 析 银 行 客户 的 信用 度 时 ,诸如 客户 的 电话 号 码 、 家 庭 住 址 等 属性 就 与 该 数据 
挖掘 任务 不 相关 ,或 者 说 是 元 余 的 。 维 规约 通过 减少 不 相关 的 属性 (或 维 ) 来 达到 减少 数 
据 集 规 模 的 目的 ,通常 使 用 属性 子 集 选 择 方法 来 找 出 最 小 属性 集 , 使 得 数据 类 的 概率 分 布 
尽 可 能 低 ,接近 原始 属性 集 的 概率 分 布 。 在 规约 后 的 属性 集 上 进行 数据 挖掘 ,不 仅 减 少 了 
出 现在 发 现 模 式 上 的 属性 的 数目 ,而 且 使 得 模式 更 容易 理解 。 属 性 子 集 选择 的 基本 启发 
式 方法 包括 以 下 几 种 。 

(1) 逐步 向 前 选择 : 该 过 程 由 空 属性 集 作 为 归 约 集 开 始 ,确定 原 属性 集中 最 好 的 属 
性 ,并 将 它 添加 到 归 约 集中 。 在 其 后 的 每 一 次 迭代 中 ,将 剩 下 的 原 属 性 集中 最 好 的 属性 添 
加 到 该 集合 中 。 

(2) 逐步 向 后 删除 : 该 过 程 由 整个 属性 集 开始 。 在 每 一 步 ,删除 尚 在 属性 集中 且 最 
差 的 属性 。 

(3) 向 前 选择 和 向 后 删除 的 结合 : 可 以 将 逐步 向 前 选择 和 向 后 删除 方法 结合 在 一 
起 ,每 一 步 选 择 一 个 最 好 的 属性 ,并 在 剩余 属性 中 删除 一 个 最 差 的 属性 。 
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(4) 决策 树 归纳 : 决策 树 算法 最 初 是 用 于 分 类 的 。 决 策 树 归纳 构造 一 个 类 似 于 流程 
图 的 结构 ,其 中 每 个 内 部 ( 非 树 叶 ) 节 点 表示 一 个 属性 的 测试 ,每 个 分 枝 对 应 于 测试 的 一 个 
输出 ;每 个 外 部 (树叶 ) 节 点 表示 一 个 类 预测 。 在 每 个 节点 ,算法 选择 “最 好 ”的 属性 ,将 数 
据 划分 成 类 。 当 决策 树 归纳 用 于 属性 子 集 选择 时 ,由 给 定 的 数据 构造 决策 树 。 不 出 现在 
树 中 的 所 有 属性 假定 是 不 相关 的 ,出 现在 树 中 的 属性 形成 归 约 后 的 属性 子 集 。 方 法 的 结 
束 标准 可 以 不 同 , 该 过 程 可 以 使 用 一 个 量度 阅 值 来 决定 何 时 停止 属性 选择 过 程 。 


2.4.3 数据 压缩 


数据 压缩 就 是 使 用 数据 编码 或 变换 以 便 将 原始 数据 集合 压缩 成 一 个 较 小 的 数据 集 
合 。 可 以 不 丢失 任何 信息 地 还 原 数 据 的 压缩 称 为 无 损 压缩 ,构造 原始 数据 的 近似 表示 的 
压缩 称 为 有 损 压 缩 ,一 般 而 言 ' 有 损 压 缩 的 压缩 比 要 比 无 损 压 缩 的 压缩 比 高 ,两 种 有 效 的 
有 损 的 数据 压缩 方法 是 小 波 变换 和 主 成 分 分 析 。 


1. 小 波 变换 


离散 小 波 变 换 (Discrete Wavelet Transform,DWT) 是 一 种 线性 信号 处 理 技术 , 当 用 
于 数据 向 量 X 时 ,将 它 变 换 成 数值 上 不 同 的 小 波 系数 向 量 X ,两 个 向 量具 有 相同 的 长 度 。 
当 这 种 技术 用 于 数据 压缩 时 ,每 个 元 组 可 看 作 一 个 n 维 数据 向 量 XX= (zi,zz,…,z) 用 
来 描述 nn 个 数据 库 属性 在 元 组 上 的 个 测量 值 。 小 波 变 换 后 的 数据 可 以 截 短 , 仅 存放 一 
小 部 分 最 强 的 小 波 系数 ,就 能 保留 近似 的 压缩 数据 。 

例如 保留 大 于 用 户 设 定 的 某 个 阔 值 的 所 有 小 波 系数 ,其 他 系数 置 为 0。 这样, 结果 数 
据 表 示 非 常 稀 朴 ,使 得 如 果 在 小 波 空间 进行 计算 ,利用 数据 稀 朴 特点 的 操作 计算 得 非常 
快 。 该 技术 也 能 用 于 消除 噪声 ,而 不 会 光滑 掉 数据 的 主要 特征 ,使 得 它们 也 能 有 效 地 用 于 
数据 清理 。 给 定 一 组 系数 ,使 用 所 用 的 DWT 的 逆 , 可 以 构造 原 数 据 的 近似 。 

DWT 与 离散 傅 里 叶 变 换 (Discrete Fourier Transform,DFT) 有 密切 的 关系 ,DFT 是 
一 种 涉及 正弦 和 余弦 的 信号 处 理 技 术 。 一 般 来 说 ,DWT 是 一 种 更 好 的 有 损 压 缩 算 法 ,也 
就 是 说 ,对 于 给 定 的 数据 向 量 , 如 果 DWT 和 DFT 保留 相同 数目 的 系数 ,DWT 将 提供 原 
数据 更 准确 的 近似 。 因 此 ,对 于 等 价 的 近似 ,DWT 比 DFT 需要 的 空间 小 ,不 像 DFT, 小 
波 空间 局 部 性 相当 好 ,有 助 于 保留 局 部 细节 。 
应 用 离散 小 波 变换 的 一 般 过 程 使 用 一 种 分 层 金 字 塔 算法 (Pyramid Algorithm) , 它 在 
每 次 迭代 将 数据 减 半 , 因 此 计算 速度 很 快 。 可 以 将 和 矩阵 乘法 用 于 输入 数据 ,以 得 到 小 波 系 
数 ,所 用 的 矩阵 依赖 于 给 定 的 DWT。 和 矩阵 必须 是 标准 正 交 的 , 即 列 是 单位 向 量 并 相互 正 
交 , 使 得 矩阵 的 逆 是 它 的 转 置 ,这 种 性 质 允 许 由 光滑 和 光滑 - 差 数 据 集 重 构 数 据 。 通 过 将 
和 矩阵 因子 分 解 成 几 个 稀 朴 矩阵 ,对 于 长 度 为 怀 的 输入 向 量 , 快 速 DWT” 算 法 的 复杂 度 为 
O(C2z) 。 

小 波 变换 可 以 用 于 多 维 数据 ,如 数据 立方 体 。 可 以 按 以 下 方法 做 : 首先 将 变换 用 于 
第 一 个 维 ,然后 第 二 个 ,如 此 类 推 。 计 算 复杂 性 关于 立方 体 中 单元 的 个 数 是 线性 的 。 对 于 
稀 芷 或 倾斜 数据 和 具有 有 序 属 性 的 数据 ,小 波 变换 给 出 了 很 好 的 结果 。 据 报道 ,小 波 变换 
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的 有 损 压 缩 比 当前 的 商业 标准 JPEG 压缩 好 。 小 波 变换 有 许多 实际 应 用 ,包括 指纹 图 像 
压缩 ` 计 算 机 视觉 .时 间 序 列 数据 分 析 和 数据 清理 。 


2. 主 成 分 分 析 


主 成 分 分 析 (Principal Components Analysis,PCA) 又 称 Karhunen-Loeve( 或 K-L) 
方法 。 该 方法 搜索 个 最 能 代表 数据 的 维 正 交 向 量 ,其 中 k<n, 这 样 原来 的 数据 就 投 
影 到 一 个 小 得 多 的 空间 ,导致 维度 归 约 。PCA 通过 创建 一 个 替换 的 .更 小 的 变量 集 “ 组 
合 ” 属 性 的 基本 要 素 , 原 数据 可 以 投影 到 该 较 小 的 集合 中 。PCA 常常 揭示 先前 未 曾 察觉 
的 联系 ,并 因此 允许 解释 不 寻常 的 结果 ,基本 过 程 如 下 : 

(1) 对 输入 数据 规范 化 ,使 得 每 个 属性 都 落 入 相同 的 区 间 。 此 步 有 助 于 确保 具有 较 
大 定义 域 的 属性 不 会 支配 具有 和 较 小 定义 域 的 属性 。 

(2) PCA 计算 A 个 标准 正 交 向 量 , 作 为 规范 化 输入 数据 的 基 。 这 些 是 单位 向 量 ,每 一 
个 方向 都 垂直 于 另 一 个 .这些 向 量 称 为 主 成 分 ,输入 数据 是 主 成 分 的 线性 组 合 。 

(3) 对 主 成 分 按 “ 重 要 性 "或 强度 降序 排列 。 主 成 分 基本 上 充当 数据 的 新 坐标 轴 , 提 
供 关 于 方差 的 重要 信息 。 也 就 是 说 ,对 坐标 轴 进 行 排序 ,使 得 第 一 个 坐标 轴 显 示 数 据 的 最 
大 方差 ,第 二 个 显示 次 大 方差 ,如 此 下 去 。 

(4) 主 成 分 根据 "重要 性 ”降序 排列 , 则 可 通过 去 掉 较 弱 的 成 分 ( 即 方差 较 小 ) 来 归 约 
数据 的 规模 ,使 用 最 强 的 主 成 分 ,应 当 能 够 重 构 原 数据 很 好 的 近似 。 

PCA 计算 开销 低 , 可 以 用 于 有 序 和 无 序 的 属性 ,并 且 可 以 处 理 稀 玻 和 倾斜 数据 ,多 于 
二 维 的 多 维 数据 可 以 通过 将 问题 归 约 为 二 维 问题 来 处 理 。 主 成 分 可 以 用 作 多 元 回归 和 聚 
类 分 析 的 输入 ,与 小 波 变换 相 比 ,PCA 能 够 更 好 地 处 理 稀疏 数据 ,而 小 波 变换 更 适合 高 维 
数据 。 


2.4.4 数值 归 约 


数值 归 约 技术 指 的 是 选择 替代 的 、 较 小 的 数据 表示 形式 来 减少 数据 量 。 几 种 常用 数 
值 归 约 技术 如 下 。 


1. 回归 和 对 数 线性 模型 


回归 和 对 数 线性 模型 可 以 用 来 近似 给 定 的 数据 ,在 (简单 ) 线 性 回归 中 ,对 数据 建 模 使 
之 拟 合 到 一 条 直线 。 例 如 ,可 以 用 以 下 公式 ,将 随机 变量 >( 称 为 响应 变量 ) 建 模 为 另 一 随 
机 变量 xz( 称 为 预测 变量 ) 的 线性 函数 > 一 zz 十 0, 其 中 假定 y 的 方差 是 常量 。 

在 数据 挖掘 中 ,zx 和 > 是 数值 数据 库 属性 。 系 数 w 和 2( 称 为 回归 系数 ) 分 别 为 直线 
的 斜率 和 Y 轴 截 距 。 系 数 可 以 用 最 小 二 乘 方法 求解 , 它 最 小 化 分 离 数据 的 实际 直线 与 直 
线 估计 之 间 的 误差 。 多 元 线性 回归 是 (简单 ) 线 性 回归 的 扩充 ,允许 响应 变量 y 建 模 为 两 
个 或 多 个 预测 变量 的 线性 函数 。 

对 数 线性 模型 近似 离散 的 多 维 概 率 分 布 。 给 定 n 维 元 组 的 集合 ,可 以 把 每 个 元 组 看 
作 妈 维 空 间 的 点 。 可 以 使 用 对 数 线性 模型 基于 维 组 合 的 一 个 较 小 子 集 ,估计 离散 化 的 属 
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性 集 的 多 维 空间 中 每 个 点 的 概率 。 这 使 得 高 维 数据 空间 可 以 由 较 低 维 空间 构造 。 因 此 ， 
对 数 线性 模型 也 可 以 用 于 维度 归 约 (由 于 低 维 空间 的 点 通常 比 原来 的 数据 点 占据 较 少 的 
空间 ) 和 数据 光滑 (因为 与 较 高 维 空间 的 估计 相 比 , 较 低 维 空间 的 聚集 估计 较 少 受 抽 样 方 
差 的 影响 ) 。 

回归 和 对 数 线性 模型 都 可 以 用 于 稀 朴 数据 ,尽管 它们 的 应 用 可 能 是 受 限制 的 。 虽 然 
两 种 方法 都 可 以 处 理 倾斜 数据 ,但 是 回归 更 好 。 当 用 于 高 维 数据 时 ,回归 可 能 是 计算 密集 
的 ,而 对 数 线性 模型 表现 出 很 好 的 可 伸缩 性 ,可 以 扩展 到 十 维 左右 。 


2. 直方 图 


直方 图 使 用 分 箱 来 近似 数据 分 布 。 属 性 A 的 直方 图 将 A 的 数据 分 布 划分 为 不 相交 
的 子 集 或 桶 。 如 果 每 个 桶 只 代表 单个 属性 值 /频率 对 , 则 称 为 单 桶 。 通 常 , 桶 表示 给 定 属 
性 的 一 个 连续 区 间 。 确 定 桶 和 属性 值 的 划分 规则 ,包括 如 下 : 

(1) 等 宽 : 在 等 宽 直 方 图 中 ,每 个 桶 的 宽度 区 间 是 一 致 的 。 

(2) 等 频 ( 或 等 深 ): 在 等 频 直方 图 中 创建 桶 ,使 得 每 个 桶 的 频率 粗略 地 为 常数 ( 即 每 
个 桶 大 致 包含 相同 个 数 的 邻近 数据 样本 )。 

(3)V 最 优 : 给 定 桶 的 个 数 ,对 于 所 有 可 能 的 直方 图 , 则 V 最 优 直方 图 是 具有 最 小 方 
差 的 直方 图 ,直方 图 的 方差 是 每 个 桶 代表 的 原来 值 的 加 权 和 ,其 中 权 等 于 桶 中 值 的 个 数 。 

(4) MaxDiff: 在 MaxDiff 直方 图 中 ,考虑 每 对 相 邻 值 之 间 的 差 , 桶 的 边界 是 具有 
8 一 1 个 最 大 差 的 对 ,其 中 p 是 用 户 指 定 的 桶 数 。 

V 最 优 和 MaxDiff 直方 图 看 来 是 最 准确 和 最 实用 的 ,对 于 近似 稀 玖 和 稠密 数据 ,以 及 
高 倾斜 和 均匀 的 数据 ,直方 图 是 高 度 有 效 的 。 多 维 直方 图 可 以 表现 属性 间 的 依赖 ,这 种 直 
方 图 能 够 有 效 地 近似 多 达 5 个 属性 的 数据 ,但 有 效 性 尚 需 进 一 步 研究 。 对 于 存放 具有 高 
频率 的 离 群 点 , 单 桶 是 有 用 的 。 

【 例 2.5】 下 面 是 某 市 场 销售 的 商品 的 价格 清单 (按照 递增 的 顺序 排列 ,括号 中 的 数 
字 表 示 该 价格 的 产品 销售 的 数目 ) : 

2(3),5(5),8(4),10(5).13(10),15(4),18(4),20(7),21(10),23(6),26(8) ,28(8)， 
29(5),30(7) 

图 2-3 使 用 单 桶 显示 了 这 些 数据 的 直方 图 。 为 进一步 压缩 数据 ,通常 让 一 个 桶 代表 
给 定 属性 的 一 个 连续 值 域 。 在 图 2-4 中 每 个 桶 代表 商品 价格 的 一 个 不 同 的 $10 区 间 。 


3. 聚 类 


聚 类 技术 将 数据 元 组 视 为 对 象 。 它 将 对 象 划分 为 群 或 能 ,使 一 个 簇 中 的 对 象 相互 “ 相 
似 ”, 而 与 其 他 簇 中 的 对 象 “ 相 异 ”。 通 常 . 相 似 性 基于 距离 函数 ,用 对 象 在 空间 中 的 “接近 ” 
程度 定义 。 簇 的 “质量 ?可 以 用 直径 表示 ,直径 是 簇 中 任意 两 个 对 象 的 最 大 距离 。 质 心 距 
离 是 复 质 量 的 另 一 种 量度 ,定义 为 由 艇 质心 (表示 “平均 对 象 ”", 或 能 空间 中 的 平均 点 ) 到 每 
个 徐 对 象 的 平均 距离 。 

在 数据 归 约 中 ,用 数据 的 簇 表 示 蔡 换 实际 数据 ,该 技术 的 有 效 性 依赖 于 数据 的 性 质 。 
如 果 数 据 能 够 组 织 成 不 同 的 簇 ,该 技术 将 有 效 得 多 。 在 数据 库 系统 中 ,多 维 索 引 树 主要 
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图 2-3 使 用 单 桶 的 商品 价格 直方 图 


出 现 次 数 
SS wy 
和 


0-10 11~20 21-30 
价格 


图 2-4 商品 价格 的 等 宽 直 方 图 


于 对 数据 的 快速 访问 , 它 也 能 用 于 分 层 数 据 的 归 约 ,提供 数据 的 多 维 聚 类 ,这 可 以 用 于 提 
供 查询 的 近似 回答 。 对 于 给 定 的 数据 对 象 集 , 索 引 树 递 归 地 划分 多 维 空间 ,其 树 根 节点 代 
表 整 个 空间 。 通 常 ,这 种 树 是 平衡 的 ,由 内 部 节点 和 树叶 节点 组 成 。 每 个 父 节点 包含 关键 
字 和 指向 子女 节点 的 指针 ,子女 节点 一 起 表示 父 节 点 代表 的 空间 。 每 个 树叶 节点 包含 指 
向 它 所 代表 的 数据 元 组 的 指针 (或 实际 元 组 )。 

这 样 ,索引 树 就 可 以 在 不 同 的 分 辨 率 或 抽象 层 存 放 聚 集 和 细节 数据 。 它 提供 了 数据 
集 的 分 层 聚 类 ,其 中 每 个 徐 都 有 一 个 标记 ,存放 该 秘 包 含 的 数据 。 如 果 我 们 把 父 节点 的 每 
个 子女 看 作 一 个 桶 , 则 索引 树 可 以 看 作 一 个 分 层 的 直方 图 。 类 似 地 ,每 个 桶 进一步 分 成 更 
小 的 桶 ,允许 在 更 细 的 层次 聚集 数据 。 作 为 一 种 数据 归 约 形式 使 用 多 维 索引 树 依 赖 于 每 
个 维 上 属性 值 的 次 序 。 二 维 或 多 维 索引 树 包 括 R 树 、 四 叉 树 和 创 门 的 变形 。 它 们 都 非常 
适合 处 理 稀 玻 数据 和 倾斜 数据 。 
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4. 抽样 


抽样 可 以 作为 一 种 数据 归 约 技术 使 用 ,因为 它 允 许 用 数据 小 得 多 的 随机 样本 ( 子 集 ) 
表示 大 型 数据 集 。 最 常用 的 抽样 方法 有 4 种 : (假定 大 型 数据 集 D 包含 N 个 元 组 ) 

(1) s 个 样本 无 放 回 简单 随机 抽样 (SRSWOR ) 。 

(2) s 个 样本 有 放 回 简单 随机 抽样 (SRSWR)。 

(3) 聚 类 抽样 : 如 果 D 中 的 元 组 分 组 放 入 M 个 互 不 相交 的 “ 簇 ”, 则 可 以 得 到 ; 个 簇 
的 简单 随机 抽样 (SRS) ,其 中 * 过 M。 例 如 ,数据 库 中 的 元 组 通常 一 次 检索 一 页 ,这 样 每 页 
就 可 以 视 为 一 个 徐 。 也 可 以 利用 其 他 携带 更 丰富 语义 信息 的 聚 类 标准 。 

(4) 分 层 抽 样 : 如 果 D 划分 成 互 不 相交 的 部 分 , 称 作 层 , 则 通过 对 每 一 层 的 SRS 就 
可 以 得 到 D 的 分 层 样本 。 特 别 是 当 数 据 倾斜 时 ,这 可 以 帮助 确保 样本 的 代表 性 。 

采用 抽样 进行 数据 归 约 的 优点 是 ,得 到 样本 的 花费 正比 于 样本 集 的 大 小 ,而 不 是 数 
据 集 的 大 小 N。 因 此 ,抽样 的 复杂 度 子 线 性 (sublinear) 于 数据 的 大 小 。 其 他 数据 归 约 技 
术 至 少 需要 完全 扫描 D。 对 于 固定 的 样本 大 小 ,抽样 的 复杂 度 仅 随 数 据 的 维 数 n 线性 地 
增加 ;而 其 他 技术 ,如 使 用 直方 图 ,复杂 度 随 指数 增长 。 

用 于 数据 归 约 时 ,抽样 最 常用 来 估计 聚集 查询 的 回答 。 在 指定 的 误差 范围 内 ,可 以 确 
定 (使 用 中 心 极限 定理 ) 估 计 一 个 给 定 的 函数 所 需 的 样本 大 小 。 样 本 的 大 小 相对 于 N 
可 能 非常 小 。 对 于 归 约 数据 集 的 逐步 求 精 , 只 需要 简单 地 增加 样本 大 小 即 可 。 


2.4.5 数据 离散 化 与 概念 分 层 


通过 将 属性 值 域 划分 为 区 间 ,数据 离散 化 技术 可 以 用 来 减少 给 定 连续 属性 值 的 个 数 。 
区 间 的 标记 可 以 替代 实际 的 数据 值 。 用 少数 区 间 标 记 替 换 连 续 属 性 的 数值 ,从 而 减少 和 
简化 了 原来 的 数据 。 这 导致 挖掘 结果 的 简洁 .易于 使 用 的 .知识 层面 的 表示 。 

对 于 给 定 的 数值 属性 ,概念 分 层 定义 了 该 属性 的 一 个 离散 化 。 通 过 收集 较 高 层 的 概 
念 ( 如 青年 .中 年 或 老年 ) 并 用 它们 替换 较 低层 的 概念 (如 年 龄 的 数值 ) ,概念 分 层 可 以 用 来 
归 约 数据 。 通 过 这 种 数据 泛 化 ,尽管 细节 丢失 了 ,但 是 泛 化 后 的 数据 更 有 意义 ,更 容易 
解释 。 

这 有 助 于 通常 需要 多 种 挖掘 任务 的 数据 挖掘 结果 的 一 致 表示 。 此 外 ,与 对 大 型 未 泛 
化 的 数据 集 挖掘 相 比 ,对 归 约 的 数据 进行 挖掘 所 需 的 I/O 操作 更 少 ,并 且 更 有 效 。 正 因 
为 如 此 ,离散 化 技术 和 概念 分 层 作为 预 处 理 步 又, 在 数据 挖掘 之 前 而 不 是 在 挖掘 过 程 进 
行 的 。 


1. 数值 数据 的 离散 化 和 概念 分 层 产生 


数值 属性 的 概念 分 层 可 以 根据 数据 离散 化 自动 构造 。 通 常 ,每 种 方法 都 假定 待 离散 
化 的 值 已 经 按 递增 排序 。 

1) 分 箱 

分 箱 是 一 种 基于 箱 的 指定 个 数 自 顶 向 下 的 分 裂 技术 。 通 过 使 用 等 宽 或 等 频 分 箱 , 然 
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后 用 箱 均值 或 中 位 数 替换 箱 中 的 每 个 值 ,可 以 将 属性 值 离散 化 ,就 像 分 别 用 箱 的 均值 或 箱 
的 中 位 数 光滑 一 样 。 这 些 技术 可 以 递归 地 作用 于 结果 划分 ,产生 概念 分 层 。 分 箱 并 不 使 
用 类 信息 ,因此 是 一 种 非 监督 的 离散 化 技术 。 它 对 用 户 指定 的 箱 个 数 很 敏感 ,也 容易 受 离 
群 点 的 影响 。 

2) 直方 图 分 析 

像 分 箱 一 样 ,直方 图 分 析 也 是 一 种 非 监 督 离散 化 技术 ,因为 它 也 不 使 用 类 信息 。 使 
等 频 直 方 图 ,理想 地 分 割 值 使 得 每 个 划分 包括 相同 个 数 的 数据 元 组 。 直 方 图 分 析 算法 可 
以 递归 地 用 于 每 个 划分 ,自动 地 产生 多 级 概念 分 层 ,直到 达到 预先 设 定 的 概念 层 数 过 程 终 
止 。 也 可 以 对 每 一 层 使 用 最 小 区 间 长 度 来 控制 递归 过 程 。 最 小 区 间 长 度 设 定 每 层 每 个 划 
分 的 最 小 宽度 ,或 每 层 每 个 划分 中 值 的 最 少数 目 。 直 方 图 也 可 以 根据 数据 分 布 的 聚 类 分 
析 进 行 划分 。 图 2-5 给 出 了 一 个 等 宽 直 方 图 ,显示 某 给 定数 据 集 的 数值 分 布 。 例 如 ,大 部 
分 数据 分 布 在 0 一 2170。 例 如 ,在 等 宽 直 方 图 中 ,将 值 划分 成 相等 的 或 区 间 ( 如 (0,2170)， 
(2170,4340),(4340,6510),(6510,8680) ) 。 
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图 2-5 等 宽 直 方 图 
3) 基于 炉 的 离散 化 


录 (Entropy) 是 最 常用 的 离散 化 量度 之 一 。 基 于 炉 的 离散 化 是 一 种 监督 的 、 自 项 向 下 
的 分 裂 技 术 。 它 在 计算 和 确定 分 裂 点 (划分 属性 区 间 的 数据 值 ) 时 利用 类 分 布 信息 。 对 离 
散 数 值 属性 A, 选 择 A 的 具有 最 小 的 值 作为 分 裂 点 ,并 递归 地 划分 结果 区 间 , 得 到 分 层 
离散 化 。 这 种 离散 化 形成 A 的 概念 分 层 。 

4) 基于 X 分 析 的 区 间 合并 

采用 自 底 向 上 的 策略 ,递归 地 找 出 最 佳 邻近 区 间 ,然后 合并 它们 ,形成 较 大 的 区 间 。 
这 种 方法 是 监督 的 , 它 使 用 类 信息 。 其 基本 思想 是 ,对 于 精确 的 离散 化 ,相对 类 频率 在 一 
个 区 间 内 应 当 相当 一 致 。 因 此 ,如 果 两 个 邻近 的 区 间 具 有 非常 类 似 的 类 分 布 , 则 这 两 个 区 
间 可 以 合并 ;否则 ,它们 应 当 保持 分 开 。 

初始 ,将 数值 属性 A 的 每 个 不 同 值 看 作 一 个 区 间 。 对 每 对 相 邻 区 间 进 行 解 检 验 。 具 
有 最 小 Xx 值 的 相 邻 区 间 合并 在 一 起 ,因为 低 解 值 表 明 它们 具有 相似 的 类 分 布 。 该 合并 过 
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程 递归 地 进行 ,直到 满足 预先 定义 的 终止 标准 。 

5) 聚 类 分 析 

聚 类 分 析 是 一 种 流行 的 数据 离散 化 方法 。 将 属性 A 的 值 划分 成 簇 或 组 , 聚 类 考虑 A 
的 分 布 以 及 数据 点 的 邻近 性 ,可 以 产生 高 质量 的 离散 化 结果 。 遵 循 自 顶 向 下 的 划分 策略 
或 自 底 向 上 的 合并 策略 , 聚 类 可 以 用 来 产生 A 的 概念 分 层 ,其 中 每 个 簇 形成 概念 分 层 的 
一 个 节点 。 在 前 者 ,每 一 个 初始 复 或 划分 可 以 进一步 分 解 成 若干 子 艇 ,形成 较 低 的 概念 
层 。 在 后 者 ,通过 反复 地 对 邻近 簇 进 行 分 组 ,形成 较 高 的 概念 层 。 

6) 根据 直观 划分 离散 化 

3-4-5 规则 可 以 用 来 将 数值 数据 分 割 成 相对 一 致 的 看 上 去 自然 的 区 间 。 一 般 地 ,该 规 
则 根据 最 高 有 效 位 的 取 值 范围 ,递归 逐 层 地 将 给 定 的 数据 区 域 划 分 为 3、4 或 5 个 相对 等 
宽 的 区 间 。 


2. 分 类 数据 的 概念 分 层 产 生 


(1) 由 用 户 或 专家 在 模式 级 显 式 地 说 明 属 性 的 偏 序 : 通常 ,分 类 属性 或 维 的 概念 分 
层 涉及 一 组 属性 。 用 户 或 专家 在 模式 级 通过 说 明 属 性 的 偏 序 或 全 序 , 可 以 很 容易 地 定义 

(2) 通过 显 式 数据 分 组 说 明 分 层 结构 的 一 部 分 : 这 基本 上 是 人 工 定义 概念 分 层 结构 
的 一 部 分 。 在 大 型 数据 库 中 ,通过 显 式 的 值 枚 举 定义 整个 概念 分 层 是 不 现实 的 。 然 而 ,对 
于 一 小 部 分 中 间 层 数据 ,我 们 可 以 很 容易 地 显 式 说 明 分 组 。 

(3) 说 明 属性 集 但 不 说 明 它们 的 偏 序 : 用 户 可 以 说 明 一 个 属性 集 形 成 概念 分 层 , 但 
并 不 显 式 说 明 它 们 的 偏 序 。 然 后 ,系统 可 以 尝试 自动 地 产生 属性 的 序 ,构造 有 意义 的 概念 
分 层 。 可 以 根据 给 定 属性 集中 每 个 属性 不 同 值 的 个 数 自动 地 产生 概念 分 层 。 具 有 最 多 不 
同 值 的 属性 放 在 分 层 结构 的 最 低层 。 一 个 属性 的 不 同 值 个 数 越 少 , 它 在 所 产生 的 概念 分 
层 结构 中 所 处 的 层次 就 越 高 。 在 许多 情况 下 ,这 种 启发 式 规则 都 很 有 用 。 在 考察 了 所 产 
生 的 分 层 之 后 ,如 果 必 要 ,局 部 层次 交换 或 调整 可 以 由 用 户 或 专家 来 做 。 

(4) 只 说 明 部 分 属性 集 : 在 定义 分 层 时 ,有 时 用 户 可 能 不 小 心 ,或 者 对 于 分 层 结构 中 
应 当 包含 什么 只 有 很 模糊 的 想法 。 结 果 , 用 户 可 能 在 分 层 结构 说 明 中 只 包含 了 相关 属性 
的 一 小 部 分 。 为 了 处 理 这 种 部 分 说 明 的 分 层 结构 ,重要 的 是 在 数据 库 模 式 中 散人 数据 语 
义 ,使 得 语义 密切 相关 的 属性 能 够 捆绑 在 一 起 。 用 这 种 办 法 ,一 个 属性 的 说 明 可 能 触发 整 
个 语义 密切 相关 的 属性 组 / 拖 进 0, 形 成 一 个 完整 的 分 层 结 构 。 然 而 必要 时 ,用 户 应 当 可 
以 选择 忽略 这 一 特性 。 


2.5 特征 选择 与 提取 


2.5.1 特征 选择 


所 谓 特 征 选择 ,就 是 从 一 组 数量 为 N 的 特征 中 选择 出 一 组 数量 为 M 的 最 优 特征 ， 
(CN>>M) 这 里 有 两 个 问题 要 解决 : 选择 一 种 可 分 性 判 据 作为 最 优 特征 选择 的 标准 ; 
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加 找到 一 个 好 的 算法 ,来 选择 出 这 组 最 优 特 征 。 下 面 介绍 几 种 特征 选择 的 算法 。 
一 个 最 简单 的 思路 是 : 我 们 假设 N 个 特征 之 间 相互 独立 ,并 且 使 用 的 可 分 性 判 据 满 


N 
足 可 加 性 : J(X)= >)J(z)， 这 时 候 只 要 把 N 个 特征 每 个 单独 使 用 时 的 可 分 性 判 据 


J (xi) 计算 出 来 ,然后 从 大 到 小 排序 : J(Cz 二 Jr) 之 … 二 J (zw), 选择 出 前 M 个 特 
征 就 是 一 组 最 优 的 特征 。 然 而 问题 往往 没有 这 么 简单 ,这 种 特征 独立 性 假设 多 数 情况 下 
并 不 成 立 , 并 且 可 分 性 判 据 也 不 一 定 满足 可 加 性 。 

另外 一 个 简单 的 思路 是 ( 穷 举 法 ): 对 从 N 中 选择 出 M 个 特征 的 所 有 组 合 情 况 都 计 
算 其 可 分 性 判 据 , 然 后 选择 出 其 中 的 最 大 者 作为 解决 方案 。 当 N 的 数值 比较 小 时 ,这 种 
方法 一 定 是 可 行 的 ,然而 当 NN 比较 大 时 ,这 个 组 合 数 会 非常 大 ,如 N=100,M 王 10 时 ,组 
合 数 的 数量 级 是 10;, 当 N = 20,M = 10 时 ,组 合 数 为 184 756。 将 所 有 的 组 合 都 计算 一 
遍 显然 是 不 现实 的 。 因 此 我 们 需要 有 一 个 搜索 算法 来 进行 特征 选择 , 即 次 优 搜 索 算法 。 


1. 顺序 前 进 法 (Sequential Forward Selection ,SFS) 


每 次 从 未 人 选 的 特征 中 选择 一 个 特征 ,使 得 它 与 已 人 选 的 特征 组 合 到 一 起 所 得 到 的 
可 分 性 判 据 最 大 ,直到 特征 数 增加 到 M 为 止 。 用 X 表示 在 第 k 步 时 的 特征 集合 ,搜索 算 
法 如 下 : 

(1) 开始 时 , X。 二 人 @, 从 N 个 特征 中 选择 一 个 J (zi ) 最 大 的 特征 ,加 入 已 选 特征 集 ， 
Xi = {zi}s 

(2) 在 第 有 步 , X, 中 包含 已 经 选择 的 A 个 特征 ,对 未 入 选 的 N 一 上 个 特征 计算 ， 
JCX U {zz)), 其 中 j= 二 1,2,…,N 一 k, 并 且 按照 由 大 到 小 排序 ,将 可 分 性 判 据 最 大 的 
特征 zt 加 入 Xe, Xe 一 Xe U {zi)s 

(3) 直到 所 选 的 特征 数 等 于 M 为 止 。 


2. 顺序 后 退 法 (Sequential Backward Selection ,SBS) 


同 顺 序 前 进 法 的 过 程 刚 好 相反 ,最 开始 时 取 Xe = {x1,zs，… ,zn) ,每 次 从 中 剔除 一 
个 特征 ,使 得 剩余 的 特征 可 分 性 判 据 最 大 。 


3. 增 1 减 r 法 (1 一 r 法 ) 


前 两 种 方法 可 以 进一步 改进 ,如 每 次 不 是 加 入 1 个 特征 ,而 是 加 入 7 个 特征 ;或 者 每 
次 不 是 剔除 一 个 特征 ,而 是 剔除 ~ 个 特征 。 这 样 的 效果 要 比 每 次 加 1 或 减 1 的 效果 好 ,但 
是 计算 量 要 增 大 。 

另外 一 种 改进 方法 是 将 SFS 和 SBS 结合 . 先 使 用 SFS 算法 逐个 选 入 / 个 最 佳 特征 ， 
然后 使 用 SBS 算法 逐个 剔除 ~ 个 最 差 特 征 , ! > ~, 再 使 用 SFS 算法 增加 /个 特征 ,再 使 用 
SBS 剔除 个 特征 ,…… ,直到 选 出 M 个 特征 为 止 。 


2.5.2 特征 提取 


特征 抽取 的 方法 很 多 ,下 面 我 们 以 离散 K-L 变换 (DKLT) 的 特征 抽取 为 例 进 行 介 
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绍 , 其 他 方法 与 此 类 似 。 设 原始 特征 为 N 的 矢量 XX 二 (zi ,zs，… ,xn)", 均值 矢量 m 二 
E[X], 相关 矩阵 Rx 一下 [XXT7], 协 方差 矩阵 Cx 二 E[ (XX 一 m) (XX 一 m)"]。 我 们 可 以 
对 天 作 以 下 的 标准 正 交 变换 ,将 其 变 为 矢量 了 王 (yy ，…'yw)T。 


13 
y= rx= | |x (2-7) 
到 
公式 (2-7) 的 每 个 分 量 : y; = TIX, 其 中 了 T 为 一 个 N XN 的 标准 正 交 和 矩阵 , T; 为 其 第 i 个 
列 矢 量 , TT = 之 也 就 是 说 ,Y 的 每 个 分 量 是 X 每 一 个 分 量 的 线性 组 合 。 
同样 X 可 以 表示 为 
J 
X= == = pi (2-8) 
二 大 


我 们 要 进行 特征 提取 ,也 就 是 要 用 Y 的 M 项 来 代替 X, 这 种 代替 必然 带 来 误差 ,下 面 


M 
我 们 来 对 这 个 误差 进行 估计 : 令 X= yy Ti,1 达 M 二 NN, 引入 的 均 方 误差 为 


N N 
ee(M)= EL[(X—X)T(X—X)]= 》 E[y]= >) E[yy7] 
i=Mt+1 i=M+H1 


= WTECXXTIL = TRAT, (2-9) 
这 又 变 成 一 个 优化 问题 ,我 们 希望 寻找 到 一 个 标准 正 交 短 隆 T, 使 得 e: (M) 最 小 ,因此 可 
以 取 这 样 的 准则 函数 : 
汶 二 > TRxT— po (2-10) 
第 一 项 保证 均 方 误差 最 小 ,第 二 项 保证 工 为 标准 正 交 短 阵 ,4 为 一 待定 常数 。 
薄 (Rx —ADT; =0, i=M+1l,N (2-11) 


即 Rx T; 二 XiTi, 很 明显 4; 为 相关 和 矩阵 Rx 的 特征 值 , T; 为 对 应 于 4; 的 特征 矢量 ,由 于 Rx 
是 一 个 实 对 称 和 矩阵 ,所 以 Ti ,T;，…,Tw 相互 正 交 ,了 为 一 个 正 交 和 矩阵 。 均 方 误差 为 
N N N 
My RE NT (2-12) 


i=M+H1 i=M+1 i=M+1 
根据 矩阵 论 , 有 这 样 的 结论 : 一 个 N x N 的 正定 实 对 称 和 矩阵 有 N 个 特征 值 和 特征 矢量 ， 
这 些 特 征 矢量 之 间 是 正 交 的 。 相 关 和 矩阵 Rx 就 是 一 个 实 对 称 和 矩阵, 当 训练 样本 足够 多 时 ， 
也 可 以 满足 正定 性 ,根据 上 式 我 们 知道 , 当 要 从 N 维特 征 中 提取 出 M 维特 征 时 ,只 需要 
统计 出 特征 相关 和 矩阵 Rx , 然后 计算 其 特征 值 和 特征 矢量 ,选择 对 应 特征 值 最 大 的 前 M 个 
特征 矢量 作成 一 个 N Xx M 特征 变换 矩阵 T, 就 可 以 完成 特征 提取 。 步 骤 如 下 : 
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(1) 利用 训练 样本 集合 估计 出 相关 矩阵 Rx 一 ELXXT7]; 

(2) 计算 Rx 的 特征 值 ,并 由 大 到 小 排序 ,1 三 )a 三 … 三 Xn， 以 及 相应 的 特征 矢量 
Ti,Ts ,Th; 

(3) 选择 前 M 个 特征 矢量 作 一 个 变换 矩阵 T= [TT … Tv]; 

(4) 在 训练 和 识别 时 ,每 一 个 输入 的 N 维特 征 矢量 X 可 以 转换 为 M 维 的 新 特征 矢量 
Y= TX,。 

这 种 方法 是 利用 相关 矩阵 Rx 进行 变换 的 ,同样 也 可 以 利用 协 方差 矩阵 Cx 进行 变换 ， 
还 可 以 利用 样本 的 散 度 矩 阵 Sw ,Ss .Sr 或 者 SW Ss 进行 变换 。 过 程 都 是 一 样 的 ,需要 计算 
特征 值 和 特征 向 量 ,选择 最 大 的 M 个 特征 值 对 应 的 特征 矢量 做 出 变换 矩阵 。 


2.6 小 结 


数据 预 处 理 包括 数据 清理 .数据 集成 .数据 变换 和 数据 规约 。 

数据 清理 例 程 试图 填补 缺失 的 值 ,光滑 噪声 同时 识别 离 群 点 ,并 纠正 数据 的 不 一 
致 性 。 

数据 集成 将 来 自 多 个 数据 源 的 数据 整合 成 一 致 的 数据 存储 。 语 义 异种 性 的 解决 、 元 
数据 .相关 分 析 、 元 组 重复 检测 和 数据 冲突 检测 都 有 助 于 数据 的 顺利 集成 。 

数据 变换 例 程 将 数据 变换 成 适 于 挖掘 的 形式 。 例 如 ,属性 数据 可 以 规范 化 ,使 得 它们 
可 以 落 入 小 区 间 , 如 0. 0 一 1. 0。 

数据 规约 得 到 数据 的 规约 表示 ,而 使 得 信息 内 容 的 损失 最 小 化 。 其 中 ,数值 数据 的 概 
念 分 层 自 动产 生 可 能 涉及 诸如 分 箱 .直方 图 分 析 、 聚 类 分 析 、 基 于 的 离散 化 和 根据 自然 
划分 的 分 段 方 法 。 对 于 分 类 数据 ,概念 分 层 可 以 根据 定义 分 层 属 性 的 不 同 值 个 数 自动 
产生 。 

特征 的 选择 与 提取 是 模式 识别 中 重要 而 困难 的 一 步 , 模 式 识别 的 第 一 步 就 是 分 析 各 
种 特征 的 有 效 性 并 选 出 最 有 代表 性 的 特征 。 降 低 特 征 维 数 在 很 多 情况 下 是 有 效 设计 分 类 
器 的 重要 课题 。 

尽管 已 经 提出 了 一 些 数 据 预 处 理 的 方法 ,数据 预 处 理 仍 然 是 一 个 活跃 的 研究 领域 。 


1. 在 现实 世界 的 数据 中 , 某 些 属性 上 缺失 值得 到 元 组 是 比较 常见 的 ,讨论 处 理 这 一 
问题 的 方法 。 

2. 讨论 数据 集成 需要 考虑 的 问题 。 

3. 以 下 规范 化 方法 的 值 域 是 什么 ? 

(1) 最 小 -最 大 规范 化 。 

(2) z 分 数 规范 化 。 

(3) z 分 数 规范 化 ,使 用 均值 绝对 偏差 而 不 是 标准 差 。 

(4) 小 数 定 标 规范 化 。 
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4. 使 用 以 下 方法 规范 化 以 下 数据 组 : 

200 ,300,400.600.,1000 

(a) 令 min 二 0,max 二 1, 最 小 -最 大 规范 化 。 

(b) z 分 数 规范 化 。 

(c) z 分 数 规范 化 ,使 用 均值 绝对 偏差 而 不 是 标准 差 。 
(d) 小 数 定 标 规范 化 。 

5. 假设 12 个 销售 价格 记录 已 经 排序 ,如 下 所 示 : 
5,10,11,13,15,35,50,55,72,92,204,215 

使 用 如 下 各 方法 将 它们 划分 成 三 个 箱 。 

(a) 等 频 ( 等 深 ) 划 分 。 

(b) 等 宽 划分 。 

(c) 聚 类 。 


第 3 章 ”关联 规则 挖掘 


3.1 基本 概念 


关联 规则 挖掘 发 现 大 量 数据 中 项 集 之 间 有 趣 的 关联 联系 。 如 果 两 项 或 多 项 属性 之 间 
存在 关联 ,那么 其 中 一 项 的 属性 就 可 以 依据 其 他 属性 值 进行 预测 。 关 联 规则 挖掘 是 数据 
挖掘 中 的 一 个 重要 的 课题 ,最 近 几 年 已 被 业界 深入 研究 和 广泛 应 用 。 

关联 规则 研究 有 助 于 发 现 交易 数据 库 中 不 同 商品 (项 ) 之 间 的 联系 , 找 出 顾客 购买 行 
为 模式 ,如 购买 了 某 一 商品 对 购买 其 他 商品 的 影响 。 分 析 结 果 可 以 应 用 于 商品 货架 布局 、 
货 存 安排 以 及 根据 购买 模式 对 用 户 进行 分 类 。 

关联 规则 挖掘 问题 可 以 分 为 两 个 子 问题 : 第 一 个 是 找 出 事务 数据 库 中 所 有 大 于 等 于 
用 户 指定 的 最 小 支持 度 的 数据 项 集 ; 第 二 个 是 利用 频繁 项 集 生成 所 需要 的 关联 规则 ,根据 
用 户 设 定 的 最 小 置信 度 进行 取舍 ,最 后 得 到 强 关 联 规则 。 识 别 或 发 现 所 有 频繁 项 目 集 是 
关联 规则 发 现 算法 的 核心 ,关联 规则 的 基本 描述 如 下 : 


1. 项 与 项 集 


数据 库 中 不 可 分 割 的 最 小 单位 信息 称 为 项 (或 项 目 ) ,用 符号 i 表示 ,项 的 集合 称 为 项 
集 。 设 集合 1 三 {iso，… ,i) 是 项 集 , 了 中 项 目的 个 数 为 k, 则 集合 1 称 为 -项 集 。 例 如 ， 
集合 {啤酒 ,尿布 ,奶粉 } 是 一 个 3- 项 集 。 


2. 事务 


设 1 三 {4,is，…,i) 是 由 数据 库 中 所 有 项 目 构成 的 集合 ,事务 数据 库 二 {4 ,to，… st) 
是 由 一 系列 具有 唯一 标识 的 事务 组 成 的 。 每 一 个 事务 t;(i 二 1,2,…,n) 包含 的 项 集 都 是 
了 的 子 集 。 例 如 ,顾客 在 商场 里 同一 次 购买 多 种 商品 ,这 些 购物 信息 在 数据 库 中 有 一 个 唯 
一 的 标识 ,用 以 表示 这 些 商品 是 同一 顾客 同一 次 购买 的 , 称 该 用 户 的 本 次 购物 活动 对 应 一 
个 数据 库 事务 。 


3. 项 集 的 频数 (支持 度 计 数 ) 
包括 项 集 的 事务 数 称 为 项 集 的 频数 (支持 度 计 数 ) 。 
4. 关联 规则 


关联 规则 是 形 如 X=>Y 的 荀 涵 式 , 其 中 X,Y 分 别 是 II 的 真子 集 , 并 且 和 myY 一 中 
X 称 为 规则 的 前 提 , Y 称 为 规则 的 结果 。 关 联 规则 反映 X 中 的 项 目 出 现时 , Y 中 的 项 目 
也 跟着 出 现 的 规律 。 
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5. 关联 规则 的 支持 度 (support) 


关联 规则 的 支持 度 是 交易 集中 同时 包含 X 和 Y 的 交易 数 与 所 有 交易 数 之 比 , 它 反映 
了 和 和 了 中 所 含 的 项 在 事务 集中 同时 出 现 的 频率 , 记 为 support(X 一 Y) , 即 
support(X 一 Y) 一 support(XUY) 王 PCXY) (3-1) 


6. 关联 规则 的 置信 度 (confidence) 


关联 规则 的 置信 度 是 交易 集中 包含 X 和 Y 的 交易 数 与 所 有 交易 数 与 包含 X 的 交易 
数 之 比 , 记 为 confidence(X=>Y) ,置信 度 反 映 了 包含 X 的 事务 中 出 现 Y 的 条 件 概 率 。 即 


confidence( X=>Y) =SuPPort (XUY) _ poy|x) (3-2) 
support(X) 


7. 最 小 支持 度 与 最 小 置信 和 度 


通常 用 户 为 了 达到 一 定 的 要 求 ,需要 指定 规则 必须 满足 的 支持 度 和 置信 和 度 阔 值 ,此 两 
个 值 称 为 最 小 支持 度 阔 值 (min_sup) 和 最 小 置信 度 阔 值 (min_conf) 。 其 中 ,min_sup 描述 
了 关联 规则 的 最 低 重 要 程度 ,min_conf 规定 了 关联 规则 必须 满足 的 最 低 可 靠 性 。 


8. 强 关 联 规 则 


support(X 一 Y) 三 min_sup 且 confidence(X 一 Y) 三 min_conf, 称 关联 规则 X=>Y 为 强 
关联 规则 ,否则 称 X=>Y 为 弱 关 联 规则 。 通 常 所 说 的 关联 规则 一 般 是 指 强 关联 规则 。 


9. 频繁 项 集 


设 U 和 CT, 项 目 集 U 在 数据 集 T 上 的 支持 度 是 包含 U 的 事务 在 工 中 所 占 的 百分比 ， 
即 
support(U ) 一 | 一 小 一 | (3-3) 


式 中 , 上 。|| 表示 集合 中 的 元 素数 目 。 对 项 目 集 六 在 事务 数据 库 工 中 所 有 满足 用 户 指定 的 
最 小 支持 度 的 项 目 集 , 即 不 小 于 min_sup 的 工 的 非 空子 集 , 称 为 频繁 项 目 集 或 大 项 目 集 。 


10. 项 目 集 空间 理论 
Agrawal 等 人 建立 了 用 于 事务 数据 库 挖掘 的 项 目 集 空 间 理论 。 理 论 的 核心 为 : 频繁 

项 目 集 的 子 集 仍 是 频繁 项 目 集 ; 非 频繁 项 目 集 的 超 集 是非 频 繁 项 目 集 。 

3.2 关联 规则 挖掘 算法 一 一 Apriori 算法 原理 


最 著名 的 关联 规则 发 现 方法 是 R. Agrawal 提出 的 Apriori 算法 。 
1. Apriori 算法 的 基本 思想 
Apriori 算法 的 基本 思想 是 通过 对 数据 库 的 多 次 扫描 来 计算 项 集 的 支持 度 , 发 现 所 有 
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的 频繁 项 集 从 而 生成 关联 规则 。Apriori 算法 对 数据 集 进行 多 次 扫描 。 第 一 次 扫描 得 到 
频繁 1- 项 集 的 集合 Li ,第 k(k 二 1) 次 扫描 首先 利用 第 (一 1) 次 扫描 的 结果 Ls- 来 产生 候 
选项 集 的 集合 Ci ,然后 在 扫描 的 过 程 中 确定 Ce 中 元 素 的 支持 度 , 最 后 在 每 一 次 扫描 结 
束 时 计算 频繁 和 -项 集 的 集合 L*, 算 法 在 当 候选 和 -项 集 的 集合 Ci 为 空 时 结束 。 


2. Apriori 算法 产生 频繁 项 集 的 过 程 


产生 频繁 项 集 的 过 程 主要 分 为 连接 和 剪 枝 两 步 : 

(1) 连接 步 。 为 找到 Li(k 宇 2), 通过 Li-1 与 自身 作 连 接 产生 候选 k- 项 集 的 集合 C，。 
设 4 和 民 是 Li 中 的 项 集 。 记 14[j] 表示 4 的 第 j 个 项 。Apriori 算 法 假定 事务 或 项 集中 的 
项 按 字典 次 序 排序 ;对 于 (& 一 1) 项 集 4 ,对 应 的 项 排序 为 1[1] = 4[2] 过 … 达 4[k 一 1]。 
如 果 Ls 的 元 素 hh 和 1s 的 前 (k 一 2) 个 对 应 项 相等 , 则 2 和 1s 可 连接 。 即 如 果 (4[1]= 
LDN AL2d=6 [2D NN Ck—2= Le—2 DN kam1< [tm1j) 时 ,和 7, 
可 连接 。 条 件 4[k 一 1] 二 4s[k 一 1] 可 以 保证 不 产生 重复 ,而 按照 Li ,Ls,*… ,Lei， 
Li，,…,L, 次 序 寻 找 频繁 项 集 可 以 避免 对 事务 数据 库 中 不 可 能 发 生 的 项 集 所 进行 的 搜索 
和 统计 工作 。 连 接 上 和 忆 产 生 的 结果 项 集 为 (0[L1] ,2[2], ,LA 一 1],[A 一 1) 。 

(2) 前 枝 步 。 由 Apriori 算法 的 性 质 可 知 ,频繁 上 -项 集 的 任何 子 集 必 须 是 频繁 项 集 。 
由 连接 生成 的 集合 Ci 需要 进行 验证 ,去 除 不 满足 支持 度 的 非 频 繁 上 项 集 。 


3. Apriori 算法 的 主要 步骤 


(1) 扫描 全 部 数据 ,产生 候选 1- 项 集 的 集合 Ci 。 

(2) 根据 最 小 支持 度 , 由 候选 1- 项 集 的 集合 Ci 产生 频繁 1- 项 集 的 集合 L)。 

(3) 对 人 1, 重复 执行 步骤 (4) (5) (6) 。 

(4) 由 执行 连接 和 剪 枝 操 作 ,产生 候选 (十 1)- 项 集 的 集合 Cu 。 

(5) 根据 最 小 支持 度 , 由 候选 (& 十 1)- 项 集 的 集合 Ca ,产生 频繁 (A 十 1)- 项 集 的 集 
合 Lin。 

(6) 车 工 关 $9, 则 上 二 k 十 1. 跳 往 步 骤 (4) ;否则 , 跳 往 步 又 (7)。 

(7) 根据 最 小 置信 和 度 , 由 频繁 项 集 产生 强 关联 规则 ,结束 。 


4. Apriori 算法 描述 


输入 : 数据 库 DD, 最 小 支持 度 国 值 min_sup。 

输出 : D 中 的 频繁 集 工 。 

(1) Begin 

(2) LL 二 1- 频 繁 项 集 ; 

(3) for(R 一 2;[L -天 $;R 十 十 )do begin 

(4) Cs 一 Apriori_gen(CLe-i); {调用 函数 Apriori_gen(Li-1) 通 过 频繁 (k 一 1) -项 集 产 
生 候选 有 项 集 } 

(5) for 所 有 数据 集 上 E D do begin {扫描 D 用 于 计数 } 
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《数据 挖掘 算法 原理 与 实 到 


(6) C: 王 subset(Cke ,zi);{ 用 subset 找 出 该 事务 中 候选 的 所 有 子 集 } 
(7) for 所 有 候选 集 cE C， do 

(8) c.count 十 十 ; 

(9) end; 

(10) Li={cECi lc. count2min_sup)} 

(11) end 

(12) end 

(13) Return LULULU…UL。 {形成 频繁 项 集 的 集合 ) 


3.3 Apriori 算法 实例 分 析 


【 例 3.1】 表 3-1 是 一 个 数据 库 的 事务 列表 ,在 数据 库 中 有 9 笔 交 易 , 即 1D| 二 9。 每 
笔 交易 都 用 唯一 的 标识 符 TID 作 标 记 , 交 易 中 的 项 按 字典 序 存放 ,下 面 描述 一 下 Apriori 
算法 寻找 D 中 频繁 项 集 的 过 程 。 
表 3-1 数据 库 的 事务 列表 


事 务 事 务 商品 ID 的 列表 
T100 T600 I ,Ts 
T200 T700 ,ls 
T300 T800 I ,ls ,1,, 1s 
T400 T900 Ti ,1 ,Ts 
Ts500 


设 最 小 支持 度 计 数 为 2, 即 min_sup 二 2, 利 用 Apriori 算法 产生 候选 项 集 及 频繁 项 集 
的 过 程 如 下 所 示 。 


1) 第 一 次 扫描 
扫描 数据 库 D 获得 每 个 候选 项 的 计数 : 
Ci Li 
项 集 ”| 支持 度 计数 项 集 “| 支持 度 计数 
{1} 6 人 6 
{hp} 7 比较 候选 支持 计数 {L} 7 
2 与 最 小 支持 度 计数 > 
{8} 6 | 6 
{4} 2 {3} 2 
{Us} 2 人 2 


由 于 最 小 事务 支持 数 为 2. 没有 删除 任何 项 目 。 可 以 确定 频繁 1- 项 集 的 集合 Li, 它 
由 具有 最 小 支持 度 的 候选 1- 项 集 组 成 。 
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关联 规则 挖掘 


2) 第 二 次 扫描 
为 发 现 频繁 2- 项 集 的 集合 L: ,算法 使 用 Lic==Li 产 生 候 选 2- 项 集 的 集合 C; 。 在 剪 枝 
步 没 有 候选 从 C: 中 删除 ,因为 这 些 候选 的 每 个 子 集 也 是 频繁 的 。 


ey Ve a 


项 岳 。” ”| 扫描 D, [项 集 支持 度 计数 | 项 全 | 支持 度 计数 
| 4 二 六 | 宝剑 区 项 本 证 
全 天 | a 全 的 | {4B | 4 
全 计数 | 同人 | 1 项 目 集 | 全 司 | 2 
{11, 145} 上 2 {1, 13} 4 
{L, 7} {L, 1} 4 {Lb, 1} 2 
{Lb, 14} {L, 14} {L, 15} 2 
加 局 本 号 | 2 
多 朋 有 | 0 
四 局 公司 | 1 
全 局 {| 。 
3) 第 三 次 扫描 
LooL, 产 生 候 选 3- 项 集 的 集合 C: 。 
人 和 G 选取 大 于 Ls 
[一 区 全 过 [项 集 | 支持 度 计数 | 总 必 冯 村 广 项 全 支持 度 计数 | 


{1, 12, 8} 3 项 集 | {1,1,B}| 2 项 目 集 {hh}| 2 
{1, hb, 3} 计数 | ft 2 {ll}| 2 


候选 3 项 集 C; 产 生 的 详细 地 列表 如 下 : 
(1) 连接 C; =L,ooL; 
=t(m 
{{D ,Ta}, {Ds ls}, {Ti ,1s}, {12,1s}, {TT}, {1,1s}} 
=(hb 和 倒 全 
(二 5 庆 二 
(2) 使 用 Apriori 性 质 剪 枝 : 频繁 项 集 的 所 有 非 空子 集 也 必须 是 频繁 的 。 例 如 人 厂 ， 
I ,1s》 的 2- 项 子 集 是 人 厂 , 有) ,人 ,和 (1 ,1s}。{1,1s}) 不 是 L; 的 元 素 , 因 而 不 是 频繁 
的 。 因 此 ,从 Cs: 中 删除 fn ,Ta 。 剪 枝 Cs 一 人 六 ) (775))。 
4) 第 四 次 扫描 
算法 使 用 La ==L; 产 生 候选 4- 项 集 的 集合 C1。Ls ceL = 人 n 了 ,1,1;)}), 根 据 
Apriori 性 质 , 因 为 它 的 子 集 {1 .7 .15} 不 是 频繁 的 ,所 以 这 个 项 集 被 删除 。 这 样 C4 = 二， 
因此 算法 终止 , 找 出 了 所 有 的 频繁 项 集 。 
【 例 3. 2〗 表 3-2 为 某 一 超市 销售 事务 数据 库 D, 使 用 Apriori 算法 发 现 D 中 的 频繁 
项 目 集 。 
事务 数据 库 D 中 有 9 个 事务 , 即 | D1 二 9。 超 市 中 有 5 件 商品 可 供 顾客 选择 , 即 
TI 一 人 1.7 且 | TI 三 5。 设 最 小 支持 数 minsup_count 王 2, 则 对 应 的 最 小 支持 
度 为 2/9=2.2%。 
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商品 ID 列表 


Dl, 


T100 | T600 oh 
T200 | bih T700 FP 
T300 | 六 T8o0 i 


CO Ll 
项 集 | 支持 度 计数 项 集 | 支持 度 计数 
{1} 6 {0} 6 
扫描 D ， 对 每 一 | 选取 大 于 最 小 支持 度 的 全 7 
候选 1 项 集 计 数 。 | 一 一 项 目 集 候选 1 项 计数 -一 
{13} 6 {1} 6 
{4} 2 {4} 2 
{s} 2 {1s} 2 
名 [en 
项 集 项 集 ”| 支持 度 计 数 
{1, 1} {1, 1} 4 
{1, 1} {7,13} 4 
{4} 扫描 D， 对 每 一 人 人 1 
由 产生 C | {7,4} 候选 2 项 集 计 数 {1,4s} 2 
{D1} {1, 8} 4 
全, 月 人 人 
{15} {1, 15} 2 
人 个 {13, 14} 0 
{54,15} 人 ,人 1 
{4, 15} {4 15} 0 
L, 
项 集 “| 支持 度 计数 
{1, Lb} 4 G 
选取 大 于 最 小 
_ 持 的 项 目 集 | 人 全 | 4 由 产生 Cs 和 
{11, 4s} 2 {1, b, B} 
{ 4 ,bb, 4s} 
{0,14} 2 
{12, 15} 2 
项 集 ”| 支持 度 计数 项 集 “| 支持 度 计数 
扫描 D ， 对 每 「 记 六 月 2 选取 大 于 最 小 支持 度 | 17 有 2 
-候选 3 项 集 计 数 一 的 项 目 集 一 
{1, 1, B} 2 {71, 1, 3} 2 
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3.4 Apriori 算法 源 程序 分 析 


#include<iostream> 
#include<string> 
#include<vector> 
#include<map> 
#include<algorithm> 


using namespace std; 


class Apriori 
{ 
public: 
Apriori(size t is=0,unsigned int mv=0) 
{ 
item size =is; 
min Value =mv; 
h 
//~Apriori() {}; 
void getItem(); 
map<vector<string> ,unsigned int>find freitem(); // 求 事务 的 频繁 项 
// 连 接 两 个 k-1 级 频繁 项 ,得 到 第 k 级 频繁 项 
map <vector<string> ,unsigned int >apri gen (unsigned int K, map<vector 
<string>,unsigned int>K item); 
// 展 示 频 繁 项 集 


void showAprioriItem (unsigned int K, map< vector< string>, unsigned int > 


showmap); 
private: 
map<int, vector<string>>item; // 存 储 所 有 最 开始 的 事务 及 其 项 
map<vector<string> ,unsigned int>K_item; // 存 储 频繁 项 集 
size t item size; // 事 务 数目 
unsigned int min value; // 最 小 阔 值 
] 
void Apriori::getItem() // 用 户 输入 最 初 的 事务 集 


{ 
int ci=item size; 
for (int i=0;i<ci;i++) 
string str; 


vector<string> temp; 
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cout<<" 请 输入 第 "<<i+1<< "个 事务 的 项 集 (123 end) : "; 


while (cin>>str && str !="123") 


temp.push back (str); 


} 
sort (temp.begin(),temp.end()); 


pair<map<int, vector< string>>::iterator, bool>ret =item.insert (make 
pair(i+1, temp)); 


if (!ret.second) 


} 
cout<<"------------- 运行 结果 如 下 :-------------- "<<endl; 


map<vector<string> ,unsigned int>Apriori::find freitem() 
{ 
unsigned int i=1; 
bool isEmpty=false; 
map<int, vector<string>>::iterator mit; 
for (mit=item.begin();mit!=item.end();mit++) 
{ 
vector<string>vec=mit->second; 
if (vec.size() !=0) 
break; 
} 
if (mit==item.end()) // 事 务 集 为 空 
{ 
isEmpty=true; 
cout<<" 事 务 集 为 空 ! 程 序 无 法 进行 .……"<<endl; 
map<vector< string>,unsigned int>empty; 
return empty; 
} 
while (1) 
t 


map<vector< string>,unsigned int>K itemTemp=K item; 


K item=apri gen(i++,K item); 


if (K itemTemp —K item) 
{ 
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i=UINT MAX; 
break; 
} 
// 判 断 是 否 需 要 进行 下 一 次 寻找 
map<vector< string>,unsigned int>Pre K item=K item; 
size t Kitemsize=K item.size(); 
// 存 储 应 该 删除 的 第 K 级 频繁 项 集 ， 不 能 和 其 他 kK 级 频繁 项 集 构成 第 K+1 级 项 集 的 
// 集 合 
if (Kitemsize!=1 && i!=1) 
{ 
vector<map<vector<string> ,unsigned int>::iterator >eraseVecMit; 
map< vector< string>, unsigned int>::iterator pre K item itl=pre K_ 
item.begin(), pre K item it2; 
while (pre K item itl!=pre K item.end()) 
{ 
map<vector< string> ,unsigned int>::iterator mit =pre K item it1; 
bool isExist=true; 
vector< string>vecl; 
vecl=pre K item itl->first; 
vector< string>vecll (vecl.begin() ,vecl.end()-1); 
while (mit!=pre K item.end()) 
{ 
vector< string>vec2; 
vec2=mit->first; 
vector< string>vec22 (vec2.begin(),vec2.end()-1); 
if (vecll==vec22) 
break; 
++mit; 
} 
if(mit—pre K item.end()) 
isExist=false; 
if(!isExist && pre K item itl!=pre K item.end()) 
eraseVecMit .push back (pre K item it1);// 该 第 K 级 频繁 项 应 该 
// 删 除 
++pre K item itl; 
} 
size t eraseSetSize=eraseVecMit.size(); 
if (eraseSetSize==Kitemsize) 
break; 
else 


{ 


Vector<map<vector< string> ,unsigned int>::iterator> terator 
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currentErs=eraseVecMit .begin(); 


while (currentErs!=eraseVecMit .end() ) // 删 除 所 有 应 该 删除 的 第 K 级 


// 频 繁 项 


map<vector<string> ,unsigned int> ::iterator eraseMit= 


*CurrentErs; 
K item.erase (eraseMit); 


++CcurrentErs; 


} 


else 


if(Kitemsize ==1) 
break; 
» 
cout<<endl; 
showAprioriItem(i,K item); 


return K item; 


<string>,unsigned int>K item) 


if(1==K) 
《 


size t cl=item size; 


map<vector<string> ,unsigned int>Apriori::apri gen (unsigned int K, map<vector 


// 求 候选 集 C1 


map<int, vector<string>> : :iterator mapit=item.begin(); 


vector<string>vec; 
map<string,unsigned int>cl_ itemtemp; 
while (mapit!=item.end()) 


{ 


vector<string> temp=mapit->second; 


// 将 原 事务 中 所 有 的 单项 统计 出 来 


vector<string> ::iterator vecit=temp.begin(); 


while (vecit!=temp.end()) 
{ 


pair<map< string,unsigned int>::iterator，bool>ret=cl 


itemtemp.insert (make pair (x* vecit++, 1)); 


if (!ret.second) 


{ 


++ret.first->second; 


} 
++mapits; 
} 
map<string,unsigned int> ::iterator item it=cl itemtemp.begin(); 
map<vector< string>,unsigned int>cl item; 
while (item it!=cl itemtemp.end()) // 构 造 第 1 级 频繁 项 集 
{ 
Vector<string> temp; 
if(item it->second >=min value) 
{ 
temp.push back (item it->first); 
cl item.insert (make pair(temp, item it->second)); 
} 
++item it; 
} 
return cl item; 
} 
else 
{ 
cout<<endl; 
showAprioriItem(K-1,K item); 
map<vector<string> ,unsigned int> ::iterator ck item itl=K item.begin(), 
ck item it2; 
map<vector< string>,unsigned int>ck item; 
while (ck item itl!=K item.end()) 
{ 
ck item it2=ck item itl; 
++ck item it2; 


map<vector< string>,unsigned int>::iterator mit=ck item it2; 


// 取 当前 第 kK 级 频繁 项 与 其 后 面 的 第 kK 级 频繁 项 集 联合 , 但 要 注意 联合 条 件 
// 联 合 条 件 : 两 个 频繁 项 的 前 K-1 项 完全 相同 ,只 是 第 KK 项 不 同 , 然后 两 个 联合 
// 生 成 第 K+1 级 候选 频繁 项 
while(mit!=K item.end()) 
{ 
Vector< string>vec,vecl, vec2; 
vecl=ck item itl->first; 
vec2=mit->first; 


vector< string> : :iterator vitl,vit2; 


Vitl=vecl.begin(); 


Vit2=vec2.begin(); 
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while (vitl<vecl.end() && vit2<vec2.end()) 
{ 
string strl =*vitl; 
string str2 =*vit2; 
++vitl; 
++vit2; 
if (K==2 || strl==str2) 
{ 
if (vitl!=vecl.end() && vit2!=vec2.end()) 


vec.push back(str1); 


’ 
else 
break; 
} 
if(vitl==vecl.end() && vit2—vec2.end()) 
{ 
tg 
--vit2; 
string strl =*vitl; 
string str2 =*#*vit2; 
if (strl>str2) 
{ 
vec.push back (str2); 
vec.push back (str1); 
} 
else 
{ 
vec.push back (str1); 
vec.push back (str2); 
} 
map<int, vector<string>>::iterator base item=item.begin(); 
unsigned int Acount=0; 
item.end () )// 统 计 该 K+1 级 候选 项 在 原 事务 集 
// 出 现 的 次 数 


while (base item! 


unsigned int count=0,mincount=UINT MAX; 
vector<string>vv=base item->second; 

vector< string> : :iterator vecit, bvit; 

for (vecit=vec.begin () ;vecit <vec.end () ;vecit++ ) 


{ 
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string t= * vecit; 
count=0; 
for (bvit=vv.begin();bvit <vv.end();bvit++) 
{ 
if(t== * bvit) 
Count++ 7 
} 
mincount= (count <mincount? count: mincount); 
} 
if (mincount>=1 && mincount!=UINT MAX) 
Acount+=mincount; 
++base item; 
} 
if (Acount >=min value && Acount!=0) 
{ 
sort (vec.begin(),vec.end()); 
// 该 第 K+1 级 候选 项 为 频繁 项 , 插入 频繁 项 集 
pair<map<vector<string>,unsigned int>::iterator, 
bool> ret=ck item.insert (make pair (vec,Acount)); 
if (!ret.second) 
{ 


et .first->second +=Acount; 


} 
++mit; 
} 
++ck item itl; 
} 
if (ck_item.empty()) // 该 第 K+1 级 频繁 项 集 为 空 , 说 明 调用 结束 , 把 上 一 级 频繁 
// 项 集 返 回 
return K item; 


else 


return ck item; 


} 
void Apriori::showAprioriItem(unsigned int K,map<vector<string> ,unsigned int> 


showmap) 


map<vector<string> ,unsigned int>::iterator showit=showmap.begin(); 
if (K!=UINT MAX) 
cout<<endl<<" 第 "<<K<<" 级 频繁 项 集 为 :"<<endl; 


else 


a 


cout<< "最 终 的 频繁 项 集 为 :"<<engl; 
cout<<" 项 集 "<<" \t "<< "频率 "<<endl; 
while (showit!=showmap.end()) 
. 
Vector<string>vec=showit->first; 
Vector< string> : :iterator vecit=vec.begin(); 
Cout<<"{ "7 
while (vecit!=vec.end()) 
{ 
Cout<< *vecit<<" "™; 
++vecit; 
} 
cout<<"y"<e® \t 
cout<<showit-> second<<endl; 


++ Showit; 


unsigned int parseNumber (const char * str)// 对 用 户 输入 的 数字 进行 判断 和 转换 
* 


if (str==NULL) 
return 0; 

else 

. 
unsigned int num=0; 
size t len=strlen (str); 
for (size t i=0;i<len;i++) 
{ 

num *=10; 


if(str[i]>="0' && str[i]<="'9') 


num +=str[i] - "0"7 
else 
return 0; 


} 


return num; 


void main() 
{ 
//Apriori a; 
unsigned int itemsize=0; 


unsigned int min; 
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关联 规则 挖掘 


cout<< "请 输入 事务 数 :"; 
Char * str=new char; 
cin>>str; 
itemsize=parseNumber (str); 
if (itemsize==0) 
{ 
cout<< "请 输入 大 于 0 正 整数 !1"<<endl; 
和 


} while (itemsize==0); 


do 
{ 
cout<<" 请 输入 最 小 阔 值 :": 
char * str=new char; 
cin>>str; 
min=parseNumber (str); 
if (min==0) 
{ 
cout<< "请 输入 大 于 0 正 整 数 !"<<endl; 
} 


} while (min==0); 


Apriori a(itemsize,min); 

a.getItem(); 

map<vector<string> ,unsigned int>AprioriMap=a.find freitem(); 
//a.showAprioriItem (UINT MAX,AprioriMap); 

system ("pause"); 


} 


上 述 程序 的 运行 结果 如 图 3-1 所 示 。 输 入 事务 数 为 9, 最 小 阔 值 为 2。9 个 事务 的 项 集 如 
下 : {Lsls}, {laos}, {Tsk}, (Tl)}, (人 有， 人 ， 人 有) ， 人 有)， 
{ 厂 ,73}。 程 序 首先 搜索 9 个 事务 的 项 集 ,统计 第 1 级 备 选项 的 支持 度 , 如 图 3-1 所 示 。 
将 备 选项 的 支持 度 与 最 小 阔 值 作 比 较 。 由 于 最 小 阔 值 为 2, 因 此 不 需要 删除 备 选项 ,所 得 
的 第 1 级 频繁 项 集 为 (五 (有 ) (人生 (入 人 (五 }。 为 产生 第 2 级 频繁 项 集 ,程序 进行 连 
接 步 ,将 第 1 级 频繁 项 集 与 自身 作 连 接 得 到 第 2 级 备 选项 ,然后 进行 剪 枝 步 ,去 除非 频繁 
备 选项 ,再 比较 所 剩 备 选项 的 支持 度 与 最 小 阅 值 , 即 得 第 2 级 频繁 项 集 : {了 ,1)， 
{,J3) (了 ,Js),{12 1s},(T2,T4),{12,1s) .按照 上 述 步 又 进 行 下 去 得 到 最 终 的 频繁 项 
集 为 {L,I,T}, {LD ,1,1}。 
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图 3-1 程序 运行 结果 


3.5 Apriori 算法 的 特点 及 应 用 
3.5.1 Apriori 算法 特点 


Apriori 算法 是 应 用 最 广泛 的 关联 规则 挖掘 算法 , 它 有 如 下 优点 
D Apriori 算 法 是 一 个 迭代 算法 。 该 算法 首先 挖掘 生成 Li, 然后 由 工 ; 生成 Cs ,再 由 
Cs 扫描 事务 数据 库 得 到 工 , ;根据 L, 生成 C;, 由 C; 扫描 事务 数据 库 得 到 工 ;, 直到 Cx 为 空 
而 产生 所 有 频繁 项 目 集 ,Apriori 算法 将 生成 所 有 大 于 等 于 最 小 支持 度 的 频 繁 项 目 集 。 
@ 数据 采用 水 平 组 织 方 式 。 所 谓 水 平 组 织 就 是 数据 按照 {事务 编号 ,项 目 集 } 的 形式 


采用 Apriori 优化 方法 。 所 谓 Apriori 优化 就 是 利用 Apriori 性 质 进行 的 优化 。 
外 适合 事务 数据 库 的 关联 规则 挖掘 。 
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@ 适合 稀 朴 数据 集 。 根 据 以 往 的 研究 ,该 算法 只 能 适合 稀 朴 数据 集 的 关联 规则 挖 
掘 ,也 就 是 频繁 项 目 集 长 度 稍 小 的 数据 集 。 

Apriori 算法 作为 经 典 的 频繁 项 目 集 生成 算法 ,在 数据 挖掘 中 具有 里 程 碑 的 作用 ,但 
是 随 着 研究 的 深入 , 它 的 缺点 也 暴露 出 来 ,主要 有 以 下 几 个 缺点 。 

QO 多 次 扫描 事务 数据 库 , 需 要 很 大 的 1/O 负载 。 在 Apriori 算法 的 扫描 中 ,对 第 & 次 
循环 ,候选 集 Ce 中 的 每 个 元 素 都 要 扫描 数据 库 一 遍 来 验证 其 是 否 加 入 工 ; ,假如 一 个 频繁 
项 目 集 包含 10 个 项 ,那么 就 至 少 需 要 扫描 数据 库 10 遍 。 当 数据 库 中 存放 大 量 的 事务 数 
据 时 ,在 有 限 的 内 存 容量 下 系统 I/O 负载 相当 大 ,每 次 扫描 数据 库 的 时 间 就 会 很 长 ,这 样 
效率 就 会 非常 低 。 

@ 可 能 产生 庞大 的 候选 集 。Apriori 算法 由 Li 产生 候选 集 Ci， 其 结果 是 指数 增 
长 的 ,例如 10* 个 1 频繁 项 目 集 就 有 可 能 产生 接近 10" 个 元 素 的 2- 候 选集 。 如 此 大 的 候选 
集 对 时 间 和 内 存 容量 都 是 一 种 挑战 。 

@ 在 频繁 项 目 集 长 度 变 大 的 情况 下 ,运算 时 间 显著 增加 。 当 频繁 项 目 集 长 度 变 大 
时 ,支持 该 频繁 项 目 集 的 事务 会 减少 ,从 理论 上 讲 , 计 算 其 支持 度 需要 的 时 间 不 会 明显 增 
加 ,但 Apriori 算法 仍然 是 在 原来 事务 数据 库 中 来 计算 长 频繁 项 目 集 的 支持 度 , 由 于 每 个 
频繁 项 目 集 的 项 目 变 多 了 ,所 以 在 确定 每 个 频繁 项 目 集 是 否 被 事务 支持 的 开销 也 增 大 了 ， 
而 且 事务 没有 减少 ,因此 频繁 项 目 集 长 度 增 加 了 ,运算 时 间 也 显著 增加 了 。 


3.5.2 Apriori 算法 应 用 


Apriori 算法 是 应 用 最 广泛 的 关联 规则 挖掘 算法 ,通过 对 各 种 领域 数据 的 关联 性 进行 
分 析 ,挖掘 成 果 在 相关 的 决策 制定 过 程 中 具有 重要 的 参考 价值 。 

Apriori 算法 广泛 应 用 于 商业 中 ,例如 应 用 于 消费 市 场 价格 分 析 中 , 它 能 够 很 快 地 求 
出 各 种 产品 之 间 的 价格 关系 和 它们 之 间 的 影响 。 通 过 数据 挖掘 ,市 场 人 员 可 以 瞄准 目标 
客户 ,采用 个 人 股票 行 市 、 最 新 信息 ,特殊 的 市 场 推 广 活动 或 其 他 一 些 特殊 的 信息 手段 ,从 
而 极 大 地 减少 广告 预算 和 增加 收入 。 

Apriori 算法 应 用 于 网 络 安全 领域 ,如 入 侵 检 测 技 术 中 。 早 期 中 大 型 的 计算 机 系统 中 
都 收集 了 审计 信息 来 建立 跟踪 档案 ,这 些 审 计 跟 踪 的 目的 多 是 为 了 性 能 测试 或 计 费 ,因此 
对 攻击 检测 提供 的 有 用 信息 比较 少 。 它 通过 模式 学 习 和 训练 可 以 发 现 网 络 用 户 的 异常 行 
为 模式 ,采用 作用 度 的 Apriori 算法 削弱 了 Apriori 算法 的 挖掘 结果 规则 ,是 网 络 人 侵 检 
测 系统 可 以 快速 发 现 用户 的 行为 模式 ,能够 快速 锁定 攻击 者 ,提高 了 基于 关联 规则 的 人 侵 
检测 系统 的 检测 性 。 

Apriori 算法 应 用 于 高 校 管理 中 。 随 着 高 校 贫 困 生 人 数 的 不 断 增 加 :学 校 管理 部 门 资 
助 工 作 难 度 也 越 来 越 大 ,数据 挖掘 算法 可 以 帮助 相关 部 门 解决 上 述 问 题 。 例 如 ,有 的 研究 
者 将 关联 规则 的 Apriori 算法 应 用 到 贫困 助 学 体 系 中 ,并 且 针 对 经 典 Apriori 挖掘 算法 存 
在 的 不 足 进 行 改进 , 先 将 事务 数据 库 映 射 为 一 个 布尔 矩阵 ,用 一 种 逐 层 递增 的 思想 来 动态 
地 分 配 内 存 进 行 存储 ,再 利用 向 量 求 "与 ?运算 ,寻找 频繁 项 集 。 实 验 结果 表明 ,这 种 改进 
后 的 Apriori 算法 在 运行 效率 上 有 了 很 大 的 提升 .挖掘 出 的 规则 也 可 以 有 效 地 辅助 学 校 
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管理 部 门 有 针对 性 地 开展 贫困 助 学 工作 。 

Apriori 算法 被 广泛 应 用 于 移动 通信 领域。 移动 增值 业务 逐渐 成 为 移动 通信 市 场 上 
最 有 活力 .最 具 潜力 、 最 受 瞩 目的 业务 。 随 着 产业 的 复苏 , 越 来 越 多 的 增值 业务 表现 出 强 
劲 的 发 展 势 头 , 呈 现 出 应 用 多 元 化 .营销 品牌 化 、 管 理 集中 化 、 合 作 纵 深化 的 特点 。 针 对 这 
种 趋势 ,在 关联 规则 数据 挖掘 中 广泛 应 用 的 Apriori 算法 被 很 多 公司 应 用 。 例 如 ,依托 某 
电信 运营 商 正在 建设 的 增值 业务 Web 数据 仓库 平台 ,对 来 自 移动 增值 业务 方面 的 调查 数 
据 进 行 了 相关 的 挖掘 处 理 , 从 而 获得 了 关于 用 户 行为 特征 和 需求 的 间接 反映 市 场 动态 的 
有 用 信息 ,这 些 信息 在 指导 运营 商 的 业务 运营 和 辅助 业务 提供 商 的 决策 制定 等 方面 具有 
上 分 重要 的 参考 价值 。 


3.6 小 结 


本 章 详 细 地 介绍 了 关联 规则 挖掘 的 基本 概念 ,对 经 典 的 关联 规则 挖掘 算法 一 Apriori 
算法 的 原理 以 及 发 现 频繁 项 目 集 的 过 程 进行 了 描述 ,并 用 实例 进行 了 说 明 ,同时 还 分 析 了 
Apriori 算法 的 特点 和 该 算法 存在 的 缺陷 ,得 出 它 在 发 现 频繁 项 集 的 过 程 中 需要 多 次 扫描 
事务 数据 库 , 此 外 还 要 产生 大 量 的 候选 项 集 ,这 都 会 对 算法 的 效率 产生 很 大 的 影响 ,并 且 
在 频繁 项 目 集 长 度 变 大 的 情况 下 ,运算 时 间 显 著 增加 ,最 后 介绍 了 Apriori 算法 在 商业 、 
网 络 安全 ,高 校 管理 和 移动 通信 等 领域 的 应 用 。 


思考 题 


1. 解释 关联 规则 的 定义 。 
2. 描述 Apriori 关联 规则 算法 。 
3. 如 表 3-3 所 示 的 数据 库 有 5 个 事物 。 设 min_sup 二 60%,min_conf 二 80%。 


表 3-3 数据 库 


购买 的 商品 
{M,O,N,K,E,Y} 


购买 的 商品 


1400 | {M.U.,C.K.Y)} 


1100 


I200 {D,O,N,K.E,Y} 1500 | {C.0O,0,K.1,E} 


{M,A,K,E} 


(1) 分 别 使 用 Apriori 和 FP 增长 算法 找 出 所 有 频繁 项 集 。 比 较 两 种 挖掘 过 程 的 
(2) 列举 所 有 与 下 面 的 元 规则 匹配 的 强 关 联 规则 (给 出 支持 度 * 和 置信 和 度 c), 其 中 ,Xx 
是 代表 客户 的 变量 ;item; 是 表示 项 的 变量 (如 A、B 等) : 
VrEtransaction,buys(X .item ) 人 buys(CX ,items )—>buys(X,items)[s,c] 
4. 如 表 3-4 所 示 的 关系 表 People 是 要 挖掘 的 数据 集 , 有 三 个 属性 (Age, Married， 
NumCars)。 假 如 用 户 指定 的 min_sup 王 60% ,min_conf 二 80%, 试 挖掘 表 3-4 中 的 数量 关 
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联 规则 。 
表 3-4 关系 表 People 


Married NumCars RecordID 


RecordID 


No 400 34 Yes 2 


100 23 


Yes 500 38 Yes 2 


200 25 


300 No 
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第 4 章 决策 树 分 类 算法 


4.1 基本 概念 
4.1.1 决策 树 分 类 算法 概述 


从 数据 中 生成 分 类 器 的 一 个 特别 有 效 的 方法 是 生成 一 棵 决策 树 (Decision Tree) 。 决 
策 树 表示 方法 是 应 用 最 广泛 的 逻辑 方法 之 一 , 它 从 一 组 无 次 序 、 无 规则 的 事例 中 推理 出 决 
策 树 表示 形式 的 分 类 规则 。 决 策 树 分 类 方法 采用 自 顶 向 下 的 递归 方式 ,在 决策 树 的 内 部 
节点 进行 属性 值 的 比较 ,根据 不 同 的 属性 值 判断 从 该 节点 向 下 的 分 支 , 在 决策 树 的 叶 节 点 
得 到 结论 。 所 以 ,从 决策 树 的 根 到 叶 节 点 的 一 条 路 径 就 对 应 着 一 条 合 取 规则 , 整 棵 决策 树 
就 对 应 着 一 组 析 取 表达 式 规则 。 

基于 决策 树 的 分 类 方法 的 一 个 最 大 的 优点 就 是 它 在 学 习 过 程 中 不 需要 使 用 者 了 解 很 
多 背景 知识 ,这 同时 也 是 它 的 最 大 缺点 ,只 要 训练 例子 能 够 用 属性 -结论 式 表示 出 来 ,就 能 
使 用 该 算法 来 学 习 。 

决策 树 是 一 个 类 似 于 流程 图 的 树 结构 ,其 中 每 个 内 部 节点 表示 在 一 个 属性 上 的 测试 ， 
每 个 分 支 代表 一 个 测试 输出 ,而 每 个 树叶 节点 代表 类 或 类 分 布 , 树 的 最 顶层 节点 是 根 节 
点 。 一 棵 典型 的 决策 树 如 图 4-1 所 示 , 它 表示 概念 buy_computer, 预测 顾客 是 否 可 能 购 
买 计算 机 。 内 部 节点 用 和 矩形 表示 ,而 树叶 节点 用 椭圆 表示 。 为 了 对 未 知 的 样本 分 类 ,样本 
的 属性 值 在 决策 树 上 测试 。 决 策 树 从 根 到 叶 节 点 的 一 条 路 径 就 对 应 着 一 条 合 取 规则 , 因 
此 决策 树 容易 转换 成 分 类 规则 。 


<30, 31~40 >40 


student yes credit-rating 


no yes excellent fair 


图 4-1 一 棵 典型 的 决策 树 


决策 树 是 应 用 非常 广泛 的 分 类 方法 ,目前 有 多 种 决策 树 方法 ,如 ID3、CN2、SLIQ、SPRINT 
等 ,下 面 先 介绍 决策 树 分 类 的 基本 核心 思想 ,然后 详细 介绍 ID3 和 C4. 5 决策 树 方法 。 


4.1.2 决策 树 基 本 算法 概述 


决策 树 分 类 算法 通常 分 为 两 个 步骤 : 决策 树 生 成 和 决策 树 修剪 。 


决策 树 分 类 算法 


1. 决策 树 生 成 算法 


决策 树 生成 算法 的 输入 参数 是 一 组 带 有 类 别 标记 的 样本 ,输出 是 构造 一 颗 决 策 树 ,该 
树 可 以 是 一 棵 二 又 树 或 多 又 树 。 二 叉 树 的 内 部 节点 ( 非 叶 子 节点 ) 一 般 表 示 为 一 个 逻辑 判 
断 ,如 形式 为 (a 二 vi) 的 逻辑 判断 ,其 中 ai 是 属性 ,w 是 该 属性 的 属性 值 , 树 的 边 是 逻辑 判 
断 的 分 支 结果 。 多 又 树 的 内 部 节点 是 属性 , 边 是 该 属性 的 所 有 取 值 ,有 几 个 属性 值 , 就 有 
几 条 边 , 树 的 叶子 节点 都 是 类 别 标记 。 构 造 决策 树 的 方法 是 采用 自 上 而 下 的 递归 方法 ,其 
思路 如 算法 4.1 所 示 。 

算法 4.1 Generate_decision_tree( 决 策 树 生 成 算法 ) 

输入 : 训练 样本 samples ,由 离散 值 属性 表示 ;候选 属性 的 集合 attribute_list。 

输出 : 一 棵 决策 树 ( 由 给 定 的 训练 数据 产生 一 棵 决策 树 ) 。 

(1) 创建 节点 N; 

(2) 如 果 samples 都 在 同一 个 类 C 则 返回 N 作为 叶 节 点 ,以 类 C 标记 ,程序 结束 ; 

(3) 如 果 attribute_list 为 空 , 则 返回 N 作为 叶 节点 ,标记 为 samples 中 最 普通 的 类 ， 
程序 结束 ; 

(4) 选择 attribute_list 中 具有 最 高 信息 增益 的 属性 test_attribute; 

(5) 标记 节点 N 为 test_attribute; 

(6) 对 于 test_attribute 中 的 每 一 个 已 知 值 a ,由 节点 N 生长 出 一 个 条 件 为 test_ 
attribute 一 a 的 分 枝 ; 

(7) 设 s 是 samples 中 test_attribute 二 a 的 样本 的 集合 ,如 果 s; 为 空 则 加 上 一 个 树 
叶 , 标 记 为 samples 中 最 普通 的 类 ,否则 加 上 一 个 由 Generate_decision_tree(si,attribute_ 
list-test_attribute) 返 回 的 节点 。 

以 代表 训练 样本 的 单个 节点 开始 构建 树 ( 对 应 算法 4. 1 的 步骤 (1)) ;如 果 样 本 都 在 同 
一 个 类 , 则 该 节点 成 为 树叶 ,并 使 用 该 类 标记 (步骤 (2) 和 (3)) ,否则 ,算法 使 用 称 为 信息 增 
益 的 度量 作为 启发 信息 ,选择 能 够 最 好 地 将 样本 分 类 的 属性 (步骤 (4)) ,该 属性 成 为 该 节 
点 的 “测试 ?或 “判定 "属性 (步骤 (5))。 值 得 注意 的 是 ,在 这 类 算法 中 ,所 有 的 属性 都 是 取 
离散 值 的 ,如 果 是 连续 值 的 属性 必须 离散 化 。 对 测试 属性 的 每 个 已 知 的 值 ,创建 一 个 分 
支 , 并 据 此 划分 样本 (步骤 (6) 一 (7))。 算 法 使 用 同样 的 过 程 ,递归 地 形成 每 个 划分 上 的 样 
本 决策 树 ,一 旦 一 个 属性 出 现在 一 个 节点 上 ,就 不 必 考 虑 该 节点 的 任何 后 代 ( 步 又 (7)) , 递 
归 划 分 步骤 ,当下 列 条 件 之 一 成 立时 停止 。 

(1) 给 定 节点 的 所 有 样本 属于 同一 类 (步骤 (2) 和 (3)) 。 

(2) 没有 剩余 属性 可 以 用 来 进一步 划分 样本 ,采用 多 数 表决 (步骤 (3))。 这 涉及 将 给 
定 的 节点 转换 成 树叶 ,并 用 samples 中 的 多 数 所 在 的 类 别 标记 它 , 另 一 种 方式 是 可 以 存放 
节点 样本 的 分 布 。 

(3) 分 支 test_attribute 二 a 没有 样本 。 在 这 种 情况 下 ,以 samples 中 的 多 数 类 创建 一 
个 树叶 (步骤 (7)) 。 

构造 好 的 决策 树 的 关键 在 于 如 何 选择 好 的 逻辑 判断 或 属性 。 对 于 同样 一 组 样本 ,可 
以 有 很 多 决策 树 符 合 这 组 样本 。 研 究 结果 表明 ,一般 情况 下 , 树 越 小 则 树 的 预测 能 力 越 
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强 。 要 构造 尽 可 能 小 的 决策 树 , 关 键 在 于 选择 合适 的 产生 分 支 的 属性 。 由 于 构造 最 小 的 
树 是 NP- 难 问题 ,因此 只 能 采用 启发 式 策略 来 进行 属性 选择 。 属 性 选择 依赖 于 对 各 种 样 
本 子 集 的 不 纯度 (Impurity) 度量 方法 。 不 纯度 度量 方法 包括 信息 增益 (Information 
Gain) ,信息 增益 比 (Gain Ratio) 、Gini-index、 距 离 度 量 (Distance Measure) 、J-measure、G 
统计 、x2 统计 、 证 据 权 重 (Weight of Evidence)、 最 小 描述 长 度 (MLP)、 正 交 法 
(Ortogonality Measure) ,相关 度 (Relevance) 和 Relief 等 。 不同 的 度量 有 不 同 的 效果 , 特 
别 是 对 于 多 值 属性 ,选择 合适 的 度量 方法 对 于 结果 的 影响 是 很 大 的 。 


2. 决策 树 修改 算法 


现实 世界 的 数据 一 般 不 可 能 是 完美 的 ,可 能 某 些 属性 字段 上 缺 值 (Missing Values); 
可 能 缺少 必须 的 数据 而 造成 数据 不 完整 ,也 可 能 数据 是 不 准确 、 含 有 噪声 甚至 是 错误 的 ， 
在 此 主要 讨论 噪声 问题 。 基 本 的 决策 树 构造 法 没有 考虑 噪声 ,因此 生成 的 决策 树 完全 与 
训练 样本 拟 合 ,在 有 噪声 的 情况 下 ,完全 拟 合 将 导致 过 分 拟 合 (Overfitting), 即 分 类 模型 
对 训练 数据 的 完全 拟 合 反而 使 分 类 模型 对 现实 数据 的 分 类 预测 性 能 降低 。 剪 枝 是 一 种 克 
服 噪 声 的 基本 技术 ,同时 它 也 能 使 树 得 到 简化 而 变 得 更 容易 理解 ,有 两 种 基本 的 剪 枝 
策略 : 

(1) 预先 剪 枝 (Pre-Pruning) : 在 生成 树 的 同时 决定 是 继续 对 不 纯 的 训练 子 集 进 行 划 
分 还 是 停机 。 

(2) 后 剪 枝 (Post-Pruning): 一 种 拟 合 -化 简 (Fitting-and-Simplifying) 的 两 阶段 方 
法 。 首 先生 成 与 训练 数据 完全 拟 合 的 一 棵 决策 树 ,然后 从 树 的 叶子 开始 剪 枝 , 逐 步 向 根 的 
方向 剪 。 剪 枝 时 要 用 到 一 个 测试 数据 集合 (Tuning Set 或 Adjusting Set) ,如 果 存 在 某 个 
叶子 剪 去 后 测试 集 上 的 准确 度 或 其 他 测试 度 不 降低 , 则 剪 去 该 叶子 :和 否则 停机 。 

理论 上 讲 ,后 剪 枝 好 于 预先 剪 枝 , 但 计算 复杂 度 大 。 剪 枝 过 程 中 一 般 要 涉及 一 些 统计 
参数 或 阔 值 (如 停机 阔 值 ) 。 值 得 注意 的 是 , 剪 枝 并 不 是 对 所 有 的 数据 集 都 好 的 ,就 像 小 决 
策 树 并 不 是 最 好 (有 具有 最 大 的 预测 率 ) 的 决策 树 一 样 。 从 某 种 意义 上 讲 , 剪 枝 也 是 一 种 偏 
向 (Bias) ,对 有 些 数据 效果 好 而 对 另外 一 些 数 据 则 效果 差 。 


4.2 决策 树 分 类 算法 一 一 ID3 算法 原理 
4.2.1 ID3 算法 原理 


基本 决策 树 构造 算法 是 一 个 贪心 算法 , 它 采 用 自 顶 向 下 的 递归 方法 构造 决策 树 ,著名 
的 决策 树 算法 ID3 的 基本 策略 如 下 。 

(1) 树 以 代表 训练 样本 的 单个 节点 开始 ; 

(2) 如 果 样 本 都 在 同一 个 类 中 , 则 这 个 节点 称 为 树叶 节点 并 标记 为 该 类 别 ; 

(3) 否则 算法 使 用 信息 炉 ( 称 为 信息 增益 ) 作 为 启发 知识 来 帮助 选择 合适 的 将 样本 分 
类 的 属性 ,以 便 将 样本 集 划 分 为 车 干 子 集 ,该 属性 就 是 相应 节点 的 “测试 "或 “判定 ”属性 ， 
同时 所 有 属性 应 当 是 离散 值 ; 
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(4) 对 测试 属性 的 每 个 已 知 的 离散 值 创建 一 个 分 支 ,并 据 此 划分 样本 ; 

(5) 算法 使 用 类 似 的 方法 ,递归 地 形成 每 个 划分 上 的 样本 决策 树 ,一 个 属性 一 旦 出 现 
在 某 个 节点 上 ,那么 它 就 不 能 再 出 现在 该 节点 之 后 所 产生 的 子 树 节点 中 ， 

(6) 整个 递归 过 程 在 下 列 条 件 之 一 成 立时 停止 。 

。 给 定 节 点 的 所 有 样本 属于 同一 类 。 

。 没有 剩余 属性 可 以 用 来 进一步 划分 样本 ,这 时 候 该 节点 作为 树叶 ,并 用 剩余 样本 

中 出 现 最 多 的 类 型 作为 叶子 节点 的 类 型 。 

。 某 一 分 枝 没有 样本 ,在 这 种 情况 下 以 训练 样本 集中 占 多 数 的 类 创建 一 个 树叶 。 

ID3 算法 的 核心 是 在 决策 树 各 级 节点 上 选择 属性 时 ,用 信息 增益 作为 属性 的 选择 标 
准 , 使 得 在 每 一 个 非 节点 进行 测试 时 ,能 获得 关于 被 测试 记录 最 大 的 类 别 信息 。 


4.2.2 粹 和 信息 增益 


为 了 寻找 对 样本 进行 分 类 的 最 优 方法 ,我们 要 做 的 工作 就 是 使 对 一 个 样本 分 类 时 需 
要 问 的 问题 最 少 ( 即 树 的 深度 最 小 )。 因 此 ,需要 某 种 函数 来 衡量 哪些 问题 将 提供 最 为 平 
衡 的 划分 ,信息 增益 就 是 这 样 的 函数 之 一 。 

设 S 是 训练 样本 集 , 它 包 括 个 类 别 的 样本 ,这 些 类 别 分 别 用 Ci ,Cs，…,C, 表示 , 那 
么 S 的 炉 (entropy) 或 者 期 望 信息 就 为 


entropy(S) 一 一 Dp logs p: (4-1) 


i=0 


其 中 , p; 表示 类 C; 的 概率 。 如 果 将 S 中 的 类 训练 样本 看 成 a 种 不 同 的 消息 ,那么 S 的 
炉 表示 对 每 一 种 消息 编码 需要 的 平均 比特 数 ,，| S|X entropy(S) 就 表示 对 S 进行 编码 需 
要 的 比特 数 ,其 中 , |S| 表示 S 中 的 样本 数目 。 如 果 nn 二 2,p1 二 ps 二 0.5, 那 么 ， 
entropy(S) =— 0.5 log:0.5 一 0.51log:0.5 一 1 

如 果 n==2,pi 二 0. 67,ps 二 0.33, 那 么 ， 

entropy(S) 一 一 0. 67 log:0. 67 一 0. 33 log:0. 33 = 0.92 
可 见 , 样 本 的 概率 分 布 越 均衡 , 它 的 信息 量 ( 焙 ) 就 越 大 ,样本 集 的 混杂 程度 也 越 高 。 因 此 ， 
炉 可 以 作为 训练 集 的 不 纯度 (impurity) 的 一 个 度量 , 人 越 大 ,不 纯度 就 越 高 。 这 样 ,决策 
树 的 分 支 原 则 就 是 使 划分 后 的 样本 的 子 集 越 纯 越 好 , 即 它们 的 焙 越 小 越 好 。 

从 直观 上 ,在 没有 任何 信息 的 情况 下 ,如 果 要 猜测 一 个 样本 的 类 别 ,我们 会 倾向 于 指 
定 该 样本 以 0. 5 的 概率 属于 类 别 Ci , 并 以 同样 的 0. 5 概率 属于 类 别 C:, 也 就 是 说 ,在 没 
有 反对 信息 存在 的 情况 下 ,我们 会 假设 先 验 概率 相等 ,此 时 的 炉 为 1。 但 是 , 当 我 们 已 知 
Ci 的 样本 数 占 67%,C; 的 样本 数 占 33% 时 , 炉 变 为 0.92, 也 就 是 说 ,信息 已 经 有 了 0. 08 
比特 的 增加 。 

当 样 本 属于 每 个 类 的 概率 相等 时 , 即 对 任意 i 有 Zp; 二 1/n 时 ,上 述 的 炉 取 到 最 大 值 
logzn。 而 当 所 有 样本 属于 同一 类 时 .S 的 人 为 0。 其 他 情况 的 炉 介 于 0 ~ logzn 。 图 4-2 
是 nn 二 2 时 布尔 分 类 的 炉 函数 随 p; 从 0 到 1 变化 时 的 曲线 。 

设 属性 A 将 S 划分 成 m 份 ,根据 A 划分 的 子 集 的 炉 或 期 望 信息 由 下 式 给 出 : 
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1.0 
Ss 
4 
会 0.5r 
§ 
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0.0 0.5 1.0 
Pe 
图 4-2 nn 二 2 时 布尔 分 类 的 业 函 数 
entropy(S,A) = 六 S: entropy(S;) (4-2) 
S i 


其 中 , S; 表示 根据 属性 A 划分 的 S 的 第 i 个 子 集 ; |S| 和 |S; | 分别 表示 S 和 S; 中 的 样 
本 数目 。 信 息 增益 用 来 衡量 炉 的 期 望 减少 值 ,因此 ,使 用 属性 A 对 S 进行 划分 获得 的 信 
息 增益 为 
gain(S,A) = entropy(S) 一 entropy(S,A) (4-3) 

gain(S,A) 是 指 因为 知道 属性 A 的 值 后 导致 的 炉 的 期 望 压缩 。gain(S,A) 越 大 ,说 明 选 择 
测试 属性 A 对 分 类 提供 的 信息 越 多 。 因 为 炉 越 小 代表 节点 越 纯 ,按照 信息 增益 的 定义 ， 
祝 息 增益 越 大 , 箭 的 减 小 量 也 越 大 ,节点 就 趋向 于 更 纯 。 因 此 ,可 以 对 每 个 属性 按照 它们 
的 信息 增益 大 小 排序 ,获得 最 大 信息 增益 的 属性 被 选择 为 分 支 属 性 。 

在 表 4-1 的 训练 样本 中 ,属于 类 yes 的 样本 有 9 个 ,属于 类 no 的 样本 有 5 个 ,于 是 ,对 
给 定 样 本 分 类 所 需 的 期 望 信息 为 


百 


5 5 
一 0.94 
14 log; 这 4 


entropy(S) 让 log; 六 


表 4-1 训练 样本 


outlook temperature humidity windy play 


sunny hot high false no 


sunny hot high true no 


overcast hot high false yes 


rainy mild high false yes 


rainy cool normal false yes 


rainy cool normal true no 


overcast cool normal true yes 
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outlook temperature humidity windy play 


sunny mild high false no 


sunny cool normal false yes 


rainy mild normal false yes 


sunny mild normal true yes 


overcast mild high true yes 


Overcast hot normal false yes 


rainy mild high true no 


炉 值 0. 940 反映 了 对 样本 集合 S 分 类 的 不 确定 性 ,也 是 对 样本 分 类 的 期 望 信息 。 坟 
值 越 小 ,划分 的 纯度 越 高 ,对 样本 分 类 的 不 确定 性 就 越 低 。 一 个 属性 的 信息 增益 ,就 是 用 
这 个 属性 对 样本 分 类 而 导致 炉 的 期 望 值 下 降 。 因 此 ,ID3 算法 在 每 一 个 节点 选择 取得 最 
大 信息 增益 的 属性 。 

下 面 分 别 对 属性 outlook,temperature,humidity 和 windy 计算 根据 这 些 属性 对 训练 
样本 进行 划分 得 到 的 信息 增益 。 

设 训练 样本 集 为 S,outlook 将 S 划分 成 三 个 部 分 , 即 outlook = sunny outlook 三 
overcast 和 outlook 二 rainy ,我们 用 S, 来 表示 属性 值 为 v 的 样本 集 , 于 是 | Sow|= 5， 
| Su | = 4, | Swiny | = 5, 而 在 Swmy 中 ,类 yes 的 样本 有 2 个 ,类 no 的 样本 有 3 个, Sonos 
的 炉 为 


2 
entropy(Ssmy ) 一 三 log; 可 三 log; 三 = 0.971 


同 理 ,可 以 计算 出 Soees 和 Swiny 的 炳 分 别 为 0 和 0.971, 因 此 ,使 用 属性 outlook 划分 
S 的 期 望 信息 为 


entropy(S,outlook) = 喇 x 0. 971 十 二 X0 中 x 0. 971 = 0. 694 


outlook 的 信息 增益 为 

gain(S,outlook) = 0. 940— 0.694 = 0. 246 
同 理 可 得 gain(S,temperature) 一 0. 151,.gain(S,humidity) 一 0. 048, gain(S, windy) 一 
0. 029 ,因为 属性 outlook 的 信息 增益 最 大 ,所 以 选择 属性 outlook 作为 根 节点 的 测试 属 
性 ,并 对 应 每 个 值 ( 即 sunny,overcast,rainy) 在 根 节点 向 下 创建 分 支 。 


4.2.3 ID3 算法 


算法 4.2 ID3 算法 。 

(1) 初始 化 决策 树 ,使 其 只 包含 一 个 树 根 节点 (X,Q), 其 中 XX 是 全 体 样 本 集 ,Q 为 
全 体 属性 集 。 

(2) f(T 中 所 有 叶 节 点 (X',Q') 都 满足 X 属于 同一 类 或 Q 为 空 ) then 算法 停止 ; 
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(3) else { 任 取 一 个 不 具有 (2) 中 所 述 状态 的 叶 节点 (X ,Q' )， 

(4) for each Q' 中 的 属性 A do 计算 信息 增益 gain(A,X'); 

(5) 选择 具有 最 高 信息 增益 的 属性 B 作 为 节点 (X',Q') 的 测试 属性 ; 

(6) for each B 的 取 值 b; do 从 该 节点 (X', Q') 伸 出 分 支 , 代 表 测 试 输出 B 王 bi; 求 得 
X 中 B 值 等 于 bi; 的 子 集 Xi;, 并 生成 相应 的 叶 节 点 (Xi',Q' 一 {B));} 

(7) 转 (2);} 


4.3 ID3 算法 实例 分 析 


【 例 4.1】 表 4-2 给 出 了 一 个 可 能 带 有 噪音 的 数据 集合 。 它 有 4 个 属性 : outlook、 
temperature .humidity 和 windy。 它 们 分 别 为 no 和 yes 两 类 。 通 过 ID3 算法 构造 决策 树 
将 数据 进行 分 类 。 


表 4-2 样本 数据 集 
属性 outlook temperature windy 类 
1 Overcast hot not no 
2 OVercast hot | nigh | very no 


| i 疯 
7 rain mild medium no 


9 rain cool normal medium no 


10 rain hot normal very no 


11 sunny cool normal very yes 


12 sunny cool normal medium yes 


13 Overcast mild high not no 


14 overcast mild high medium no 


15 Overcast cool normal not yes 


16 overcast cool normal medium yes 


17 rain mild normal not no 


18 rain mild normal medium no 


19 overcast mild normal medium yes 


20 overcast mild normal very yes 
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outlook temperature humidity windy 


21 | 全 mild i i | jes 


22 | sunny mild high medium | yes 


sunny normal yes 


rain 


12 12 


1 


entropy(X) 歼 Boe 24 


如 果 选 取 outlook 属性 作为 测试 属性 ， 则 此 时 的 条 件 坑 为 


entropy(X ,outlook) = 艺人 二 log: log; 襄 ) + 六 ( 二 log。 三 Tlog; 万 ) 


+ (- Tlog 工 一 0)= 0. 4643 


如 果 选 取 temperature 属性 作为 测试 属性 ， 


8 全 6 本 王仁 二 60 
entropy(X ,temperature) 一 元 ( 8 log2 2 8 logz B)+ ( Tirlog 


| 5 
24 


如 果 选 取 humidity 属性 作为 测试 属性 , 则 有 


1 4 1 1 , 
( 证 logs 于 二 logz 志 ) 0.6739 


12/_ 4，， 4 8 
entropy(X ,humidity) 一 = 站 ( 人 log: 十 15 一 总 log， 雹 二 区 (二 1 Zlogs 17 17 12log。 Tz) 
一 0.8183 
如 果 选 取 windy 属性 作为 测试 属性 , 则 有 
8 4 4 4 4 6 3 3 3 3 
entropy (X ,windy) zi(—6 log: 8 8 logz 8) 上 + 到 人 ( log> 6 logz 5) 


,10 
rz ( iolog 7 10 10 15) 


可 以 看 出 entropy(X .outlook) 最 小 , 即 有 关 outlook 的 信息 对 于 分 类 有 最 大 的 帮助 ， 
提供 最 大 的 信息 量 , 即 gain(X,outlook) 最 大 。 所 以 应 该 选择 outlook 属性 作为 测试 属 
性 。 还 可 以 看 出 entropy(X) = 二 entropy(X .windy) 最 小 , 即 gain(X,windy) 二 0, 有 关 
windy 的 信息 不 能 提供 任何 分 类 信息 。 选 择 outlook 作为 测试 属性 之 后 将 训练 实例 分 为 
三 个 子 集 ,生成 三 个 叶 节 点 ， 对 每 个 叶 节 节点 依次 利用 上 面 的 过 程 生成 如 图 4-3 所 示 的 决 

【 例 4.2】 如 表 4-3 所 示 为 一 个 商场 顾客 数据 库 ( 训 练 样本 集合 ) 属 性 。 样 本 集合 的 
类 别 属 性 为 buy computer, 该 属性 有 两 个 不 同 取 值 , 即 {yes,no}, 因此 就 有 两 个 不 同 的 
类 别 Gm 三 2) . 设 C 对 应 yes 类 别 , Cs 对 应 no 类 别 。 Ci 类别 包含 9 个 样本 , Cs 类 别 包含 
5 个 样本 。 


5 1ogs 1 
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图 4-3 生成 的 决策 树 


表 4-3 一 个 商场 顾客 数据 库 
rid age income | saamt | credit rating buy computer 
2 <=30 high excellent no 
3 30~40 high 


fair yes 


4 >40 medium fair yes 


0 Sw | = | I Us 
> | = | 


excellent no 


excellent yes 


yes 
y 

7 30 一 40 low yes 
yes 
yes 


10 >40 medium fair yes 
11 =<30 medium yes excellent yes 
12 30~40 medium no excellent yes 
30~40 high fair yes 
14 二 40 medium excellent no 


为 了 计算 每 个 属性 的 信息 增益 ,首先 计算 出 所 有 (对 一 个 给 定 样本 进行 分 类 所 需要 ) 
的 信息 量 , 具 体 计算 过 程 如 下 : 


是 3 3 § 
I(si,s2 )= 1(9,5) 14 log。 这 四 


接着 需要 计算 每 个 属性 的 信息 炉 。 假 设 先 从 属性 age 开始 ,根据 属性 age 中 每 个 取 值 在 
Ci 类 别 和 Cs 类 别 中 的 分 布 ,就 可 以 计算 出 每 个 分 布 所 对 应 的 信息 。 


5 
loge 0.94 
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对 于 = 二 
对 于 age 二 “30 一 40 ”; st 一 4,szz 一 0,T(says) 一 0。 
对 于 age 二 “> 40”; sis 一 3,523 = 2,T(sn,sa)= 0.971。 
然后 就 可 以 计算 出 若 根 据 属 性 age 对 样本 集合 进行 划分 ,所 获得 的 对 一 个 数据 对 象 
进行 分 类 而 需要 的 信息 炉 , 由 此 获得 利用 属性 age 对 样本 集合 进行 划分 的 信息 增益 为 : 
gain(age)= I(si,ss)— E(age)= 0.245 
类 似 可 以 获得 
gain (income ) =0. 0029 
gain(student ) 一 0. 151 
gain (credit rating ) 一 0. 048 
显然 选择 属性 age 所 获得 的 信息 增益 最 大 ,因此 被 作为 测试 属性 用 于 产生 当前 分 支 
节点 。 这 个 新 产生 的 节点 被 标记 为 age; 同时 根据 属性 age 的 三 个 不 同 取 值 ,产生 三 
个 不 同 的 分 支 , 当 前 的 样本 集合 被 划分 为 三 个 子 集 ,如 图 4-4 所 示 。 其 中 落 入 age 一 
“30 一 40"? 子 集 的 样本 类 别 均 为 C: 类 别 , 因 此 在 这 个 分 支 末端 产生 一 个 叶 节 点 并 标 
记 为 C 类 别 。 根 据 如 表 4-3 所 示 的 训练 样本 集合 ,最 终 产生 一 个 如 图 4-4 所 示 的 决 
策 树 。 


income | student | credit rating | class 


high no fair no 
high no excellent no 
medium no fair no 
low yes fair yes 
medium yes excellent yes 


income | student | creditrating | class 


high no fair yes 
low yes excellent yes 
medium no excellent yes 
high yes fair yes 


income | student | creditrating | class 


medium no fair yes 
low yes fair yes 
low yes excellent no 
medium yes fair yes 
medium no excellent no 


图 4-4 选择 属性 age 产生 相应 分 支 的 示意 描述 


从 图 4-4 中 可 以 看 出 ,age 一 ”30 一 40” 的 子 集 样 本 的 类 别 相同 , 均 为 yes, 故 该 节点 将 
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成 为 一 个 叶子 节点 ,并 且 其 类 别 标记 为 yes。 
接 下 来 ,对 age 节点 的 不 纯 分 支 子 节点 进一步 完成 与 上 述 步 骤 类 似 的 计算 ,最 后 得 到 
的 决策 树 如 图 4-5 所 示 。 


age 
<30 30-40 >40 
student yes credit rating 
yes no fair excellent 
yes no yes no 


图 4-5 是 否 买 计算 机 的 分 类 与 预测 决策 树 示 例 


4.4 ID3 算法 源 程序 分 析 


#include<iostream> 
#include<string> 
#include<vector> 
#include<map> 
#include<algorithm> 
#include<cmath> 


using namespace std; 
#define MAXLEN 6// 输 入 每 行 的 数据 个 数 


// 多 叉 树 的 实现 

//1 广义 表 

//2 父 指 针 表示 法 , 适 于 经 常 找 父 节点 的 应 用 

//3 子女 链表 示 法 ， 适 于 经 常 找 子 节点 的 应 用 

/14 左 长 子 ， 右 兄弟 表示 法 ,实现 比较 麻烦 

//5 每 个 节点 的 所 有 孩子 用 vector 保存 

// 教 训 : 数据 结构 的 设计 很 重要 ,， 本 算法 采用 5 比较 合适 ， 同 时 

// 注 意 维护 剩余 样 例 和 剩余 属性 信息 ， 建 树 时 横向 遍历 靠 循环 属性 的 值 


// 纵 向 遍历 靠 递归 调用 

vector<vector<string>>state; // 实 例 集 

vector< string>item (MAXLEN); // 对 应 一 行 实例 集 
vector< string>attribute row; // 保 存 首 行 即 属性 行 数据 
string end ("end"); // 输 入 结束 


string yes ("yes"); 


string no("no"); 
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string blank(""); 
map< string,vector< string >>map attribute values; // 存 储 属性 对 应 的 所 有 值 


int tree size=0; 


struct Node{ // 决 策 树 节点 
string attribute; // 属 性 值 
string arrived value; // 到 达 的 属性 值 
vector<Node *>childs; // 所 有 的 孩子 
Node(){ 


attribute=blank; 


arrived value=blank; 


}; 


Node * root; 


// 根 据 数据 实例 计算 属性 与 值 组 成 的 map 
void ComputeMapFrom2DVector (){ 
unsigned int i,j,k; 
bool exited=false; 
vector<string>values; 
for (i=1; i<MAXLEN-1; i++){ ”// 按 照 列 遍历 
for (j=1; j <state.size(); j++){ 
for (k=0; k <values.size(); k++){ 
if(!values [k] .compare (state[j] [i])) exited=true; 
} 
if(!exited){ 
values.push back (state[j] [i]); // 注 意 vector 都 是 从 前 面 插入 的 ， 
// 注 意 更 新 it， 始终 指向 vector 头 
} 
exited=false; 
} 
map attribute values[state[0] [i]]=values; 


values.erase(values.begin(), values.end()); 


// 根 据 具体 属性 和 值 来 计算 炉 


double ComputeEntropy (vector<vector< string>> remain state, string attribute, 
string value, bool ifparent){ 
vector<int>count (2,0); 
unsigned int i,j; 
bool done flag=false; // 哨 兵 值 
for (j=1; j <MAXLEN; j++){ 
if (done flag) break; 
if(!attribute row[j].compare (attribute)){ 
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7 i<remain state.size(); i++){ 


if((!ifparentgg!remain state[i][]] .compare (value)) || ifparent){ 


//ifparent 记录 是 否 算 父 节点 
if(!remain state[i] [MAXLEN -1] .compare(yes)){ 
Count [0]++3; 


} 


else count [1]++; 


} 
done flag=true; 


} 
if (count[0]==0 || count [1]==0) return 0; // 全 部 是 正 实例 或 者 负 实 例 


// 具 体 计算 炉 , 根 据 [+count [0],-count[1]],1og, 通 过 换 底 公式 换 成 自然 数 底数 


double sum= count [0]+count[1]7 
double entropy=- count [0]/sum * log (count [0]/sum) /1og(2.0) - count [1]/sum* 


log (count [1] /sum) /10g (2.0); 


return entropy; 


// 计 算 按照 属性 attribute 划分 当前 剩余 实例 的 信息 增益 


double ComputeGain(vector<vector<string>> remain state, string attribute){ 


unsigned int j,k,m; 
// 首 先 求 不 做 划分 时 的 炉 
double parent entropy=ComputeEntropy (remain state, attribute, blank, true); 
double children entropy=0; 
// 然 后 求 做 划分 后 各 个 值 的 炉 
vector<string>values=map attribute values[attribute]; 
vector<double>ratio; 
vector<int>count values; 
int tempint; 
for (m=0; m<values.size(); mt+){ 
tempint=0; 
for (k=1; kK<MAXLEN -1; k++){ 
if(!attribute row[k].compare (attribute)){ 
for (j=1; j<remain state.size(); j++){ 
if(!remain state[j] [k] .compare (values [m])){ 


tempint++; 


} 


count values.push back (tempint); 


for(j=0; j<values.size(); j++){ 

ratio.push back((double)count values[j] / (double) (remain state.size() 
-By 

} 

double temp entropy; 

for (j=0; j<values.size(); j++){ 
temp entropy=ComputeEntropy (remain state, attribute, values[j], false); 
children entropy +=ratio[j] * temp entropy; 

} 


return (parent entropy -children entropy); 


int FindAttriNumByName (string attri){ 
for (int i=0; i<MAXLEN; i++){ 
if(!state[0] [i] .compare(attri)) return i; 
》 
cerr<<"can't find the numth of attribute"<<endl; 


return 0; 


// 找 出 样 例 中 占 多 数 的 正 / 负 性 
string MostCommonLabel (vector< vector< string>>remain state){ 
int p=0, n=0; 
for (unsigned i=0; i<remain state.size(); i++){ 
if(!remain state[i] [MAXLEN-1] .compare (yes)) p++; 
else n++ 7 
} 
if (p>=n) return yes; 


else return no; 


// 判 断 样 例 是 否 正 负 性 都 为 label 
bool AllTheSameLabel (vector<vector< string>>remain state, string label){ 
int count=0; 
for (unsigned int i=0; i<remain state.size(); i++){ 
if(!remain state[i] [MAXLEN-1] .compare (label)) count++; 
上 
if (count==remain state.size()-1) return true; 


else return false; 


// 计 算 信息 增益 ,DFS 构建 决策 树 
//current_node 为 当前 的 节点 


67 


68 


//remain_state 为 剩余 待 分 类 的 样 例 
//remian attribute 为 剩余 还 没有 考虑 的 属性 
// 返 回 根 节点 指针 


Node * BulidDecisionTreeDFS (Node * p, vector< vector< string>> remain state, 


vector<string>remain attribute){ 

//if(remain state.size()>0){ 
//printv (remain state); 

i 

if (p— NULL) 
p=new Node() 7 

// 先 看 搜索 到 的 树叶 的 情况 

if (AllTheSameLabel (remain state, yes)){ 
p->attribute=yes; 
return p; 

} 

if (AllTheSameLabel (remain state, no)){ 
p->attribute=no; 
return p; 

} 

if (remain attribute.size() 一 0){// 所 有 的 属性 均 已 经 考虑 完了 ,还 没有 分 尽 
string label=MostCommonLabel (remain state); 
p->attribute=label; 


return p; 


double max gain=0, temp_ gain; 
vector<string> : :iterator max it=remain attribute.begin(); 
vector<string>::iterator itl; 
for (itl=remain attribute.begin(); itl <remain attribute.end(); itl++){ 
temp gain=ComputeGain(remain state, (*it1)); 
if (temp gain >max gain) { 
max gain=temp gain; 


max it=itl; 


E 
// 下 面 根据 max_it 指向 的 属性 来 划分 当前 样 例 , 更 新 样 例 集 和 属性 集 
vector<string>new attribute; 
vector<vector<string>>new state; 
for (vector< string> : :iterator it2=remain attribute.begin(); it2<remain 
attribute .end(); it2++){ 
if((* it2) .compare(xmax it)) new_attribute.push back(* it2); 
} 
// 确 定 了 最 佳 划 分 属性 ,注意 保存 


P->attribute= * max it; 


vector<string>values=map attribute values[*max it]7 
int attribue num=FindAttriNumByName (* max it); 
new state.push back(attribute row); 
for (vector<string> ::iterator it3=values .begin(); it3 <values.end(); 
it3++){ 
for (unsigned int i=1; i <remain state.size(); i++){ 
if(!remain state[i] [attribue num] .compare (* it3)){ 


new_state.push back (remain state[i]); 


} 
Node * new node=new Node (); 
new node->arrived value= * it3; 
if (new_state.size() 一 0){// 表 示 当 前 没有 这 个 分 支 的 样 例 ， 当 前 的 new_node 为 
// 叶 子 节点 

new node->attribute=MostCommonLabel (remain state); 
} 
else 

BulidDecisionTreeDFS (new node, new state, new attribute); 
// 递 归 冰 数 返回 即 回溯 时 需要 四 将 新 节点 加 入 父 节点 孩子 容器 ;@) 清 除 new_state 容器 
p->childs.push back(new node); 
new_state.erase (new_state.begin()+1,new state.end()); 

// 注 意 先 清空 new_state 中 前 一 个 取 值 的 样 例 , 准备 遍历 下 一 个 取 值 样 例 
} 


return p; 


void Input (){ 
String s; 
while(cin>>s,s.compare(end) !=0) {//-1 为 输入 结束 
item[0]= 
for (int i=1;i<MAXLEN; i++){ 


cin>>item[i]; 
} 
state.push back (item); ”// 注 意 首 行 信息 也 输入 进去 , 即 属性 
} 
for (int j=0; j<MAXLEN; j++){ 
attribute row.push back(state[0] [j]); 


void PrintTree (Node *p, int depth){ 
for (int i=0; i<depth; i++) cout <<'\t'; // 按 照 树 的 深度 先 输出 tab 
if (!p->arrived value.empty()){ 


cout<<p->arrived value<<endl; 
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for (int i=0; i<depth+1; i++) cout <<'\t'; // 按 照 树 的 深度 先 输出 tab 


cout<<p->attribute<<endl; 


for (vector<Node * >::iterator it=p->childs.begin(); it!=p-> 
childs.end(); it++){ 
PrintTree (x* it, depth +1); 


void FreeTree (Node *p){ 


if (p— NULL) 
return; 

for (vector<Node * >::iterator it=p->childs.begin(); it!=p-> 
childs.end(); it++){ 
FreeTree (* it); 

} 

deletep; 


tree sizett+; 


int main(){ 


Input (); 


Vector< string>remain _ attribute 


string outlook ("Outlook"); 

string Temperature ("Temperature"); 

string Humidity ("Humidity"); 

string Wind ("Wind"); 

remain attribute.push back (outlook); 

remain attribute.push back (Temperature); 

remain attribute.push back (Humidity); 

remain attribute.push back (Wind); 

vector<vector<string>>remain state; 

for (unsigned int i=0; i<state.size(); i++){ 
remain state.push back (state[i]); 

} 

ComputeMapFrom2DVector (); 

root=BulidDecisionTreeDFS (root, remain state,remain attribute); 

cout<<"the decision tree is :"<<endl; 

PrintTree (root, 0); 

FreeTree (root); 

cout<<endl; 

cout<<"tree size:"<<tree size<<endl; 


return 0; 


决策 


} 


结果 分 析 : 运行 结果 如 图 4-6 所 示 


tenperature 
hot 
mild 


hunidity 
high 


nornal 
yes 
cool 
overcast 
tenperature 
hot 
yes 
mild 
yes 
cool 


图 4-6 运行 结果 
输入 的 训练 数据 如 下 : 


day outlook temperature humidity wind Play tennis 


1 sunny hot high weak no 


2 sunny hot high strong no 


overcast hot high weak yes 


rainy mild high weak yes 


un 


rainy cool normal weak yes 
6 rainy cool normal strong no 


7 overcast cool normal strong yes 


8 sunny mild high weak n 


9 sunny cool normal we 


10 rainy mild normal weak yes 


11 sunny mild normal strong y 


12 overcast mild high s 


13 overcast hot normal wes 
14 rainy mild high strong no 


end 


首先 保存 


树 节 点 ,由 该 属 


行 即 属性 行 数据 ,存储 属性 对 应 的 所 有 值 ,根据 数据 仿 
成 的 map。 检 测 所 有 的 属性 ,根据 具体 属性 和 值 来 计算 炉 , 选 择 信息 增益 最 大 的 


列 计算 属性 与 值 组 
性 产生 


I 不 同 取 值 建立 分 支 ,再 对 各 分 支 的 子 集 递归 调用 该 方法 , 求 做 划 


分 后 各 个 值 的 炉 , 建 立 决策 树 节点 的 分 支 ,直到 所 有 子 集 仅 包 含 同一 类 别 的 数据 为 止 。 最 


后 得 


到 的 一 棵 决策 树 如 图 4-7 所 示 , 它 可 以 用 来 对 新 的 样本 进行 分 类 。 
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outlook 


sunny 


humidity 


pe 


no yes 


图 4-7 得 到 的 决策 树 


4.5 ID3 算法 的 特点 及 应 用 
4.5.1 ID3 算法 特点 


ID3 算法 的 优点 是 : 算法 的 理论 清晰 ,方法 简单 ,学 习 能 力 较 强 。 
ID3 算法 的 缺点 是 : 


(1) 信息 增益 的 计算 依赖 于 特征 数目 较 多 的 特征 ,而 属性 取 值 最 多 的 属性 并 不 一 定 最 优 。 


(2) ID3 是 非 递 增 算法 。 
(3) ID3 是 单 变量 决策 树 ( 在 分 枝 节 点 上 只 考虑 单个 属性 ) ,许多 复杂 概念 的 表达 


困 


难 ,属性 相互 关系 强调 不 够 ,容易 导致 决策 树 中 子 树 的 重复 或 有 些 属性 在 决策 树 的 某 一 路 


径 上 被 检验 多 次 。 
(4) 抗 噪 性 差 ,训练 例子 中 正 例 和 反例 的 比例 较 难 控制 。 


4.5.2 ID3 算法 应 用 


1. ID3 算法 在 汽车 售后 服务 中 的 应 用 


据 调 查 ,国外 汽车 80% 的 利润 是 由 售后 服务 得 到 的 ,而 整 车 销售 只 占 总 利润 的 20%， 
因此 很 多 公司 都 努力 提高 汽车 的 售后 服务 水 平 。 随 着 数据 库 的 多 年 使 用 ,在 竞争 日 益 激 


烈 的 汽车 行业 里 ,汽车 售后 服务 商 存 有 大 量 的 客户 数据 。 如 何 提高 汽车 售后 服务 水 平 ， 


发 


现 客户 的 需求 和 服务 中 的 一 些 规律 ,将 成 为 汽车 售后 服务 企业 关心 和 重视 的 问题 ,鉴于 此 
种 情况 ,利用 数据 挖掘 技术 ID3 算法 .根据 汽车 售后 服务 业 客户 消费 行为 的 特征 对 客户 进 


行 细 分 及 客户 特征 分 析 , 把 大 量 的 客户 按照 标准 分 成 不 同 的 类 。 最 终 根据 客户 的 类 别 
性 特征 ,为 不 同类 型 的 客户 制订 不 同 的 营销 策略 ,从 而 使 企业 获得 较 高 的 利润 。 


2. ID3 算法 在 ATM 选 点 预测 系统 中 的 应 用 


属 


自动 柜员 机 ATM 作为 银行 为 客户 提供 服务 的 窗口 ,其 快捷 有 效 的 自助 方式 ,早已 被 
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国内 金融 机 构 及 客户 广泛 认可 。 在 中 国 ,金融 自助 服务 具有 巨大 的 增长 潜力 。 人 金融 业 在 
布 放 ATM 时 需要 在 满足 用 户 需 要 的 基础 上 保证 银行 收益 最 大 化 ,最 大 限度 地 提高 ATM 
利用 率 。 而 现 有 ATM 的 布点 并 不 完全 合理 。 有 些 区 域 的 ATM 网 点 密度 过 大 ,很 容易 
加 剧 竞争 ,造成 效率 低下 ;有些 区 域 的 ATM 网 点 密度 反而 过 小 ,有 些 大 银行 在 一 些 区 域 
存在 网 点 空白 区 ,不 能 为 客户 提供 更 好 的 服务 。 因 此 如 何 合理 和 有 效 地 布 放 ATM 已 成 
为 银行 有 待 解决 的 问题 。 利 用 数据 挖掘 技术 和 面向 属性 归纳 以 及 分 类 决策 树 的 ID3 算 
法 ,可 以 挖掘 以 往 积累 的 ATM 部 署 区 域 信息 ,发现 累计 取款 量 大 、 次 数 多 和 查询 次 数 高 
的 ATM 部 署 点 的 特征 。 通 过 分 析 数 据 , 建 立 选 点 模型 ,可 以 找 出 利用 率 高 的 ATM 地 区 
的 特征 ,可 作为 金融 机 构 部 署 ATM 的 参考 。 


4.6 ”决策 树 分 类 算法 一 一 C4.5 算法 原理 


4.6.1 C4.5 算法 


上 面 已 经 提 到 ,ID3 还 存在 许多 需要 改进 的 地 方 ,为 此 ,Quinlan 在 1993 年 提出 了 
ID3 的 改进 版 本 C4. 5 算法 。 它 与 ID3 算法 的 不 同 点 包括 : 

(1) 分 支 指标 采用 增益 比例 ,而 不 是 ID3 所 使 用 的 信息 增益 ; 

(2) 按照 数值 属性 值 的 大 小 对 样本 排序 ,从 中 选择 一 个 分 割 点 ,划分 数值 属性 的 取 值 
区 间 ,从 而 将 ID3 的 处 理 能 力 扩 充 到 数值 属性 上 来 ; 

(3) 将 训练 样本 集中 的 位 置 属性 值 用 最 常用 的 值 代替 ,或 者 用 该 属性 所 有 取 值 的 平 
均值 代替 ,从 而 处 理 缺 少 属性 值 的 训练 样本 ; 

(4) 使 用 次 迭代 交叉 验证 ,评估 模型 的 优 劣 程度 ; 

(5) 根据 生成 的 决策 树 , 可 以 产生 一 个 if-then 规则 的 集合 ,每 一 个 规则 代表 从 根 节 
点 到 叶 节 点 的 一 条 路 径 。 

C4.5 算法 的 核心 思想 与 ID3 完全 一 样 ,下 面 ,我 们 仅 就 C4. 5 算法 与 ID3 算法 的 一 些 
不 同 点 进行 讨论 。 


1. 增益 比例 


信息 增益 是 一 种 衡量 最 优 分 支 属 性 的 有 效 函 数 ,但 是 它 倾向 于 选择 具有 大 量 不 同 取 
值 的 属性 ,从 而 产生 许多 小 而 纯 的 子 集 。 例 如 病人 的 ID、 姓 名 和 日 期 等 ,特别 是 作为 关系 
数据 库 中 记录 的 主 码 的 属性 ,根据 这 样 的 属性 划分 的 子 集 都 是 单元 集 , 对 应 的 决策 树 节点 
当然 是 纯 节 点 了 。 因 此 ,需要 新 的 指标 来 降低 这 种 情况 下 的 增益 。Quinlan 提出 使 用 增 
益 比 例 来 代 蔡 信息 增益 。 

首先 ,我 们 来 考虑 训练 样本 关于 属性 值 的 信息 量 ( 坟 )split_info(S,A), 其 中 ,S 代表 
训练 样本 集 ;A 代表 属性 ,这 个 信息 量 是 与 样本 的 类 别 无 关 的 , 它 的 计算 公式 如 下 : 

|S:| lo。 jsj 


split_info(S,A) 三 一 疼 TsT log; TsT (4-4) 
其 中 , S; 表示 根据 属性 A 划分 的 第 i 个 样本 子 集 ,样本 在 A 上 的 取 值 分 布 越 均匀 ,split_ 


73 


《数据 挖掘 算法 原理 与 实现 》 


info 的 值 就 越 大 。split_info 用 来 衡量 属性 分 裂 数据 的 广度 和 均匀 性 。 属 性 A 的 增益 比 
例 计 算 如 下 : 


gain(S,A) 


split_info(S,A) 人 


gain_ratio( S.A) = 


其 中 , gain(S,A) 表示 信息 增益 。 

当 存 在 i 使 得 |S; |~ |S| 时 ,split_info 将 非常 小 ,从 而 导致 增益 比例 异常 大 ,C4. 5 
为 解决 此 问题 ,进行 了 改进 , 它 计算 每 个 属性 的 信息 增益 ,对 于 超过 平均 信息 增益 的 属性 ， 
再 进一步 根据 增益 比例 来 选取 属性 。 

一 个 属性 分 割 样 本 的 广度 越 大 ,均匀 性 越 强 , 该 属性 的 split_info 越 大 ,增益 比例 就 越 
小 。 因 此 ,split_info 降低 了 选择 那些 值 较 多 和 且 均匀 分 布 的 属性 的 可 能 性 。 

例如 , 含 个 样本 的 集合 按 属 性 A 划分 为 n 组 (每 组 一 个 样本 ),A 的 分 裂 信息 为 
logzz。 属 性 B 将 n 个 样本 平分 为 两 组 ,B 的 分 裂 信息 为 1, 若 A.B 有 同样 的 信息 增益 , 显 
然 , 按 信息 增益 比例 量度 应 选择 B 属性 。 

采用 增益 比例 作为 选择 属性 的 标准 ,克服 了 信息 增益 量度 的 缺点 ,但 是 算法 偏向 于 选 
择 取 值 较 集中 的 属性 ( 即 炉 值 最 小 的 属性 ) ,而 它 并 不 一 定 是 对 分 类 最 重要 的 属性 。 


2. 数值 属性 的 处 理 


C4.5 处 理 数值 属性 的 过 程 如 下 : 

(1) 按照 属性 值 对 训练 数据 进行 排序 。 

(2) 用 不 同 的 阅 值 对 训练 数据 进行 动态 划分 。 

(3) 当 输 入 改变 时 确定 一 个 闵 值 。 

(4) 取 当 前 样本 的 属性 值 和 前 一 个 样本 属性 值 的 中 点 作为 新 的 阔 值 。 
(5) 生成 两 个 划分 ,所 有 的 样本 分 布 到 这 两 个 划分 中 。 

(6) 得 到 所 有 可 能 的 阔 值 .增益 和 增益 比例 。 

每 一 个 数值 属性 划分 为 两 个 区 间 , 即 大 于 阅 值 或 小 于 等 于 阅 值 。 


3. 未 知 属性 值 的 处 理 


C4.5 处 理 样本 中 未 知 属 性 值 的 方法 是 将 未 知 值 用 最 常用 的 值 代替 ,或 者 用 该 属性 所 
有 取 值 的 平均 值 代替 。 另 一 种 解决 办 法 是 采用 概率 的 办 法 ,为 属性 的 每 一 个 取 值 赋予 一 
个 概率 ,在 划分 样本 集 时 ,将 未 知 属性 值 的 样本 按照 属性 值 的 概率 分 配 到 子 节点 中 去 ,这 
些 概 率 的 获取 依赖 于 已 知 的 属性 值 的 分 布 。 

在 表 4-1 的 例子 中 ,属性 outlook 有 三 个 不 同 取 值 ,其 中 值 为 sunny 的 样本 有 5 个 , 值 
为 overcast 的 样本 有 4 个 , 值 为 rainy 的 样本 有 5 个 ,总 共 14 个 已 知 属性 值 的 样本 。 因 
此 ,如 果 存 在 一 个 未 知 outlook 属性 值 的 样本 ,那么 根据 属性 outlook 分 支 时 ,分 配 到 
outlook 王 sunny 的 样本 数 为 5 十 5/14 个 ,分 配 到 outlook 王 overcast 的 样本 数 为 4 十 4/14 
个 ,分 配 到 outlook 王 rainy 的 样本 数 为 5 十 5/14 个 。 


4. 大 次 交叉 验证 
交叉 验证 是 一 种 模型 评估 方法 , 它 将 使 用 学 习 样 本 产生 的 决策 树 模型 应 用 于 独立 的 
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测试 样本 ,从 而 对 学 习 的 结果 进行 验证 。 如 果 对 学 习 样 本 进行 分 析 产生 的 大 多 数 或 者 全 
部 分 支 都 是 基于 随机 噪声 的 ,那么 使 用 测试 样本 进行 分 类 的 结果 将 非常 糟糕 。 

如 果 将 上 述 的 学 习 - 验 证 过 程 重复 & 次 ,就 称 为 次 迭代 交叉 验证 。 首 先 将 所 有 的 训 
练 样本 平均 分 成 & 份 ,每 次 使 用 其 中 的 一 份 作为 测试 样本 ,使 用 其 余 的 人 一 1 次 作为 学 习 
样本 ,然后 选择 平均 分 类 精度 最 高 的 树 作为 最 后 的 结果 。 通 常 , 分 类 精度 最 高 的 树 并 不 是 
节点 最 多 的 树 。 除 了 用 于 选择 规模 较 小 的 树 外 ,交叉 验证 还 用 于 决策 树 的 修剪 。& 次 迁 
代 交 叉 验 证 非常 适用 于 训练 样本 数目 比较 少 的 情形 。 但 是 由 于 要 构建 A 棵 决策 树 , 它 的 
计算 量 非 常 大 。 

5. 规则 的 产生 

C4. 5 还 提供 了 将 决策 树 模型 转换 为 if-then 规则 的 算法 。 规 则 存储 于 一 个 二 维 数组 
中 ,每 一 行 代表 一 个 规则 。 表 的 每 一 列 代表 样本 的 一 个 属性 , 列 的 值 代 表 了 属性 的 不 同 取 


值 ,例如 ,对 于 分 类 属性 来 说 ,0、1 分 别 代 表 取 属性 的 第 一 、 第 二 个 值 ,对 于 数值 属性 来 说 ， 
0、1 分 别 代表 小 于 等 于 和 大 于 阔 值 。 如 果 列 值 为 一 1, 则 代表 工作 中 不 包含 该 属性 。 


4.6.2 C4.5 算法 的 伪 代 码 


假设 用 S 代表 当前 样本 集 ,当前 候选 属性 集 用 A 表示 , 则 C4. 5 算法 C4. 5formtree(S, A) 
的 伪 代 码 如 下 。 
算法 4.3: Generate_decision_tree 由 给 定 的 训练 数据 产生 一 棵 决策 树 。 
输入 : 训练 样本 samples ;候选 属性 的 集合 attributelist。 
输出 : 一 棵 决策 树 。 
(1) 创建 根 节点 N。 
(2) IF S 都 属于 同一 类 C, 则 返回 N 为 叶 节 点 ,标记 为 类 C。 
(3) IF attributelist 为 空 OR S 中 所 剩 的 样本 数 少 于 某 给 定 值 , 则 返回 N 为 叶 节 点 ， 
标记 N 为 S$ 中 出 现 最 多 的 类 。 
(4) FOR each attributelist 中 的 属性 ,计算 信息 增益 率 information gain ratio。 
(5) N 的 测试 属性 test. attribute 二 attributelist 具有 最 高 信息 增益 率 的 属性 。 
(6) IF 测试 属性 为 连续 型 , 则 找到 该 属性 的 分 割 闷 值 。 
(7) For each 由 节点 N 一 个 新 的 叶子 节点 { 
IF 该 叶子 节点 对 应 的 样本 子 集 S' 为 空 ， 
则 分 裂 此 叶子 节点 生成 新 叶 节 点 ,将 其 标记 为 S 中 出 现 最 多 的 类 ; 
ELSE 
在 该 叶子 节点 上 执行 C4. 5formtree(S'，S'. attributelist) ,继续 对 它 
分 裂 ， 
} 
(8) 计算 每 个 节点 的 分 类 错误 ,进行 剪 枝 。 
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4.7 C4.5 算法 实例 分 析 


【 例 4.3】 下 面 我 们 通过 对 毕业 生 就 业 信息 的 分 析 加 以 理解 。 这 个 分 析 结果 能 够 玫 
助教 育 者 寻找 到 可 能 影响 毕业 生 就 业 的 信息 ,从 而 在 今后 的 教学 过 程 中 进行 改进 ,使 得 毕 
业 生 在 就 业 时 更 具 竞争 力 。 

表 4-4 的 数据 是 经 过 预 处 理 的 数据 集 ,从 表 中 我 们 可 以 得 到 类 标号 属性 "就 业 情况 ” 
有 两 个 不 同 的 值 (“ 已 "未 ”) ,因此 有 两 个 不 同 的 类 。 其 中 对 应 于 类 值 “已 "有 14 个 样本 ， 
类 值 “未 "有 8 个 样本 。 


表 4-4 毕业 生 就 业 信息 表 


学 号 性 别 学 生 干 部 综合 成 绩 毕业 论文 就 业 情况 
2000041134 男 是 70 一 79 优 已 
2000041135 女 中 已 
2000041201 男 不 是 60 一 69 不 及 格 未 
2000041202 男 是 60 一 69 良 已 
2000041203 男 中 已 
2000041204 男 良 未 
2000041205 女 良 已 
2000041209 男 是 60 一 69 良 已 
2000041210 女 是 70~79 中 举 
2000041211 男 不 是 60 一 69 及 格 已 
2000011215 到 E 
zo00011216 骨 E 
2000041223 男 不 是 70~79 及 格 未 
2000041319 男 是 60 一 69 及 格 已 
2000041320 男 70~79 良 已 
2000041321 男 70~79 良 未 
2000041322 男 80~89 良 替 
2000041323 女 70~79 良 已 
2000041324 男 70~79 不 及 格 未 
2000041325 男 70~79 良 淮 
2000041326 女 60 一 69 优 已 
2000041327 男 60 一 69 良 已 
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我 们 先 计算 训练 集 的 全 部 信息 量 。 
entropy( 就 业 情况 ) 二 entropy(14, 8) 二 一 14/22logs (14/22) 一 8/22log, (8/22) 
= 0. 045 660 30 
接着 ,需要 计算 每 个 属性 的 信息 增益 比 ,以 属性 "性别" 为 例 。 
entropy( 男 ) 一 entropy(10，7) 一 一 10/17logs (10/17) 一 7/17log;(7/17) 二 0. 977 417 28 
entropy( 女 ) 王 entropy(4,，1) 王 一 4/5log:(1/5) 一 1/5log:z(1/5) 一 0.721 928 09 
由 公式 有 
entropy( 性 别 ) 王 (17/22) Xentropy( 男 ) 十 (5/22) Xentropy( 女 ) 一 0. 919 351 97 
求 出 这 种 划分 的 信息 增益 。 
gain( 性 别 ) 王 entropy( 就 业 情 况 ) 一 entropy( 性 别 ) 王 0.026 308 33 
再 根据 公式 求 出 在 该 属性 上 的 分 裂 信息 。 
split_Info( 性 别 ) 王 一 17/22Xlog*(17/22) 一 5/22 一 log:(55/22) 一 0.773 226 67 
最 后 求 出 在 该 属性 上 的 增益 比 。 
gain_ratio( 学 生 干 部 ) 二 0.411 714 46， gain_ratio( 综 合成 绩 ) 二 0.088 391 08， 
gain_ratio( 毕 业 成 绩 )==0. 101 671 58 
由 上 述 计 算 结 果 可 知 “ 学 生 干 部 ”在 属性 中 具有 最 大 的 信息 增益 比 , 取 “ 学 生 干 部 ”为 
根 属性 ,引出 一 个 分 支 ,样本 按 此 划分 。 对 引出 的 每 一 个 分 支 再 用 此 分 类 法 进行 分 类 ,再 
引出 分 支 ,最 后 所 构造 出 的 判定 树 如 图 4-8 所 示 。 


图 4-8 构造 出 的 判定 树 


4.8 C4.5 算法 源 程序 分 析 


#include "iostream.h" 
#include "stdlib.h" 
#include "stdio.h" 
#include "iostream.h" 
#include "stdio.h" 
#include "stdlib.h" 
#include "math.h" 
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const int A=4; //data 中 条 件 属性 的 个 数 
const int C=3; //data 中 类 的 个 数 
const int ON=150; //ordata 中 样本 的 个 数 
const int N=120; // 测 试 集中 样本 的 个 数 
const int MAX=200;  // 条 件 属性 取 值 的 最 大 值 
const int CX= 27 // 运 行 20 次 求 平均 值 


double ordata[ON] [A+2]={ 
L513:5,1.4,0.2,1; 
2,4.9,3.0,1.4,0.2,1, 
3v4.773.2,1.3v,0.2v1v 
dd4.613.1,1:5,0:2,1, 
5,5.0,3.6,1.4,0.2,1, 
615.4,3.9,1.7,0.4,1, 
人 
8,5.0,3.4,1.5,0.2,1, 
Wa L027 
0 
ll 50 3.7,1.570.201 
lw 
1374507 3.0/ T4031 i 
lt 0 0 
1575.00 0.0,1 00.2 
16,5.7,4.4,1.5,0.4,1, 
17,5.4,3.9,1.3,0.4,1, 
10/5:1 .355 dO 
LD 
S05 S00 
P+ 了 和 人 
wi 
S346 36 1.070.2 
人 帮主 全。 3 0 
25,4.8,3.4,1.9,0.2,1, 
26:5.073.0, 1.6,02, 1 
27,5.0,3.4,1.6,0.4,1, 
Wi 
29.5.2:3.0 .40.2 1 
MD 
cr 
让 
Fr 
3 人 人 二 
Et 
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36,5. 


3715:56 


38,4. 
39,4. 


40,5.1, 


41,5. 
42,4. 


43,4.4, 


44,5. 
45,5. 
46,4. 
47,5. 
48,4. 
49,5. 
50,5. 
SloTs 
52,6. 
53,6. 
54,5。 
55,6. 
56,5. 
57,6, 
58,4. 
59,6。 
60,5. 
61.5, 
6275。 
63,6. 
64,6. 
6575。 
66,6. 
6775。 
68,5. 
6976。 
70,5。 
71,5。 
72,6, 
73,6. 
74,6. 
75,6. 
76,6. 
77,6. 
78,6. 
79,6. 


下 


79 


80 


80,5.7, 
81,5.5, 
B25 5 
83,5.8, 
84,6.0, 
85,5.4 
86,6.0, 
87,6.7 


88,6. 


89,5.6, 
90,5.5 


9175。 
92,6. 


93,5.8, 
94,5.0, 


9575. 


96,5.7, 
97,5.7; 
98,6.2, 


9975。 


100,5. 
101,6. 
102,5。 
103,7. 
104,6. 
105, 6. 
106,7. 
107,4. 
108,75 
109, 6. 
210575 
111, 6. 
112, 6. 
113, 6. 
114,5. 
115,5. 
116, 6. 
Ey 
6, 7 
119,7. 
120, 6. 
121,6. 
5 
1 7 


124,6.3,2.7,4.9,1.8,3, 
125,6.7,3.3,5.7,2.1,3, 
126,7.2,3.2,6.0,1.8,3, 
127,6.2,2.8,4.8,1.8,3, 
128,6.1,3.0,4.9,1.8,3, 
129,6.4,2.8,5.6,2.1,3, 
130,7.2,3.0,5.8,1.6,3, 
131,7.4,2.8,6.1,1.9,3, 
132,7.9,3.8,6.4,2.0,3, 
133,6.4,2.8,5.6,2.2,3, 
134,6.3,2.8,5.1,1.5,3, 
135,6.1,2.6,5.6,1.4,3, 
136,7.7,3.0,6.1,2.3,3, 
137,6.3,3.4,5.6,2.4,3, 
138,6.4,3.1,5.5,1.8,3, 
139,6.0,3.0,4.8,1.8,3, 
140,6.9,3.1,5.4,2.1,3, 
141,6.7,3.1,5.6,2.4,3, 
142,6.9,3.1,5.1,2.3,3, 
143,5.8,2.7,5.1,1.9,3, 
144,6.8,3.2,5.9,2.3,3, 
145,6,7,3.3,5.7,2.5,3, 
146,6.7,3.0,5.2,2.3,3, 
147,6.3,2.5,5.0,1.9,3, 
148,6.5,3.0,5.2,2.0,3, 
149,6.2,3.4,5.4;2.3,3, 
150,5.9,3.0,5.1,1.873 


] 

double data[N] [A+2]; // 训 练 集 

double test [ON-N] [A+ 2]; // 测 试 集 

double rule[N] [A+2]; // 规 则 集 

int bb=0; // 规 则 集中 规则 的 个 数 
int attnum[A]; // 各 个 属性 取 值 的 个 数 


//int iii,jjj; 
/xxxxxxxxx#xx 统 计 各 属性 取 值 的 个 数 xxxxxxxxxxxx/ 
// 初 始 化 
/x 
for (iii=0;iii<A;iii++) 
{ 

attnum[iii]=17 

sort (gordata[0] [0],ON, iii+1) 7 

for (jjj=1;jjj<ON;jjj++) 

§ 

if (ordata[jjj] [iii+1] 一 ordata[]Jjj-1] [iii+1]) continue; 
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else attnum[iii]++; 


} 


cout<<attnum[iii]<<endl; 


} 
*/ 


struct node 


{ 


int leaf; // 标 志 , 叶子 为 1， 否则 为 中 间 节 点 , 取 值 为 0 
double cla; // 如 果 是 叶子 节点 ,就 表示 决策 类 的 值 
int att[R]7 // 已 确定 的 条 件 属 性 ,1 为 已 确定 ，0 为 未 确定 
double attvalue [A]; // 已 确定 的 条 件 属性 的 取 值 , 初始 值 为 -1 
int i; // 当 前 进行 分 支 的 条 件 属性 号 (0~A-1) 
double nextvalue [MAX]; // 当 前 条 件 属性 的 取 值 
struct node * next[MAX]; // 指 向 前 条 件 属性 取 值 的 下 一 级 

}* Tree; 


int noden=0; 


void out (double *a,int n); // 输 出 数组 a, 它 有 n 行 , At+2 列 
void sort (double * a,int num,int n);// 对 数组 a 根据 第 n 列 进行 排序 
struct node * root(); // 生 成 根 节点 


double gainratio (double * d, int n,int a);// 求 有 n 个 样本 的 数据 集 a 的 属性 a 的 信息 增益 率 

struct node * copynode (struct node * a,struct node *b);// 找 贝 a 节 点 的 数据 到 b 节点 

int isleaf (struct node * p); // 判 断 节点 p 是 否 为 叶子 节点 

void nextnode (struct node *p); // 根 据 当 前 节点 生成 孩子 节点 ,返回 值 为 0 表示 都 是 
// 叶 子 节点 ， 为 1 表示 还 存在 孩子 节点 


void outnode (struct node * p) 7 // 输 出 节点 P 
void outTree(struct node * P) 7 // 输 出 树 ,p 为 根 
int nodemaxi(struct node *p); // 求 节点 pp 的 
// 函 数 声明 


void main() 
{ 
int i,j,k; 


int bzl,bz27 


int reco[CX] // 能 正确 识别 的 样本 个 数 
int cannotreco [CX]; // 拒 绝 识 别 
int recoerr [CX]; // 错 误 识 别 
double recoratio[CX]; // 能 正确 识别 的 样本 个 数 
double cannotrecoratio[CX]; // 拒 绝 识别 
double recoerrratio[CX]; // 错 误 识别 
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// 


double nodenumber [CX]; // 节 点 个 数 


double averagereco=0; / /平均 正确 识别 率 
double averagecannotreco=0; // 平 均 拒绝 识别 率 
double averagerecoerr=0; // 平 均 错误 识别 率 
double averagerule=0; // 平 均 规则 个 数 


double averagenodenumber=0;  // 平 均 节点 个 数 
int c; 
for(c=0;c<CX;c++) 
{ 

reco[c]=0; 

recoerr[c]=0; 

cannotreco[c]=07 
/xX 关 关 尖 关 % 关 XXX%# 统 计 各 属性 取 值 的 个 数 #aeaei 关 闪闪 闪闪 闪闪 关 ] 
// 初 始 化 
for (i=0;i<A;i++) 
《 

attnum[i]=17 

Sort (&ordata[0][0],ON,i+1l)7 
// out (&ordata[0][0],ON) 

for (j=1;j<ON;j++) 

{ 

if(ordata[j] [i+1]==ordata[j-1] [i+1]) continue; 
else attnum[i]++; 

} 

cout<<attnum[i]<<endl; 


} 


for(c=0;c<CX;c++) 


{ 


noden=0; 
bb=0; 
int 1=0; 
/党 关 关 关 关头 关 关 关 关 关 关 关 关 关 关 关 关 计 成 训 | 练 集 关 关 关 关 关 关 关 关 关 关 关 关 关 关 关 关 关 关 关 / 
int a[ON]; // 标 志 
for (i=0;i<ON;i++) 
a[i]=0; // 标 志 初 始 化 为 0 


for (i=0;i<N;i++) 
{ 
k=rand()® ON; 


if (a[lk]—0) // 该 随机 产生 的 样本 尚未 被 选中 
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数据 挖掘 算 : 


// 该 样本 记 入 data[i] 
for (j=0;j<A+2;j++) 
data[i][j]=ordata[k] [j]; 
// 标 记 a[rand()s 150] 为 1 
a[k]=1; 
} 
else // 该 随机 产生 的 样本 已 经 被 选中 
{ 
k=rand ()% ON; 
// 继 续 产 生 下 一 个 随机 数 , 直到 对 应 样本 未 被 选中 
while(a[k]==1) 
{ 
k=rand ()% ON; 
} 
// 该 样本 记 入 data[i] 
for (j=0;j<A+ 2;j++) 
data[i] [j]=ordata[k] [j]; 
// 标 记 a[rand()% 150] 为 1 
a[lk]=1; 


/ 关 关 闪闪 关 尖 闪闪 尖 关 关 关 关 关 关 关 关 并 全 成 测试 对 闪闪 闪闪 关 尖 闪闪 关 闪闪 尖 关 关 关 关 关 关 关 / 
k=0; 
for (i=0;i<ON-N;i++) 
{ 
while (a[k]==1) 
{ 
k++? 
} 
for (j=0;j<A+2;j++) 
test [i] [j]=ordata[k] [j]; 
+ 十 了 


for (i=0;i<N;i++) 
if(data[i][A+l] 一 2) 
+ 十 了 
// cout<<"aaaa== "<<l<<endl; 
for (i=0;i<N;i++) 
data[li] [0]=i+1; 
for (i=0;i<ON-N;i++) 


test[i] [0]=i+1; 
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//for (i=0;i<A;i++) 


//cout<<i<<":"<<gainratio(gordata[0] [0] ,ON,i)<<endl; 


Tree=root (); 


nextnode (Tree); 
out (gdata[l0] [0],N); 


cout<<endl; 


cout<<endl; 


cout<<endl; 


cout<<endl; 


cout<<endl; 
out (gtest [0] [0] ,ON- N); 


//outnode (Tree); 


outTree (Tree); 


//cout<<bb<<endl; 


for(i=0;i<ON- N;i++) 


{ 


bz2=1; // 默 认为 拒绝 识别 


for (j=0;j<bb;j++) 


{ 


. 


bz1=1; // 默 认为 匹配 

for (k=0;Kk<A;k++) 

{ 
if((test[i][k+1]==rule[j] [k+1])||(rule[j] [kt+1]==0)) bzl=bzlx 17 
else {bzl=bzlx 0;break;} 


if ( (bz1 )&& (test [i] [At+1]==rule[j] [A+1])) {reco[c]++; bz2=0;break;} 
if ((bzl==1)&& (test [i] [A+1]!=rule[j] [A+1])) {recoerr [c]++;bz2=0; 
break;} 


if (bz2 一 1) {cannotreco[c]++;} 


nodenumber [c]= (double)noden; 


recoratio[c]= (double)reco[c]/ (double) (ON-N) 7 


recoerrratio[c]= (double) recoerr[c]/ (double) (ON-N); 


cannotrecoratio[c]= (double)cannotreco[c]/ (double) (ON-N); 


cout<< "次 数 :"<< c<<end1l; 


cout<<"recog-right:"<< (double)reco[c]/ (double) (ON-N)<<endl; 
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cout<< "recog-worng: "<< (double)recoerr[c]/ (double) (ON-N)<<endl; 


cout<< "recog-cannot :"<< (double)cannotreco[c]/ (double) (ON-N)<<endl; 


cout<<"nodenumber:"<<noden<<endl; 


averagerule=averagerulet+bb; 


for(c=0;c<CX;c++) 

! 
averagereco=averagereco+Iecoratio[c]7 
averagerecoerr=averagerecoerr+recoerrratio[c]; 
averagecannotreco=averagecannotrecotcannotrecoratio[c]; 


averagenodenumber=averagenodenumber+nodenumber[c]; 


averagereco=averagereco/ (double)CX7 
averagerecoerr=averagerecoerr/ (double)CX; 
averagecannotreco=averagecannotreco/ (double)CX; 
averagenodenumber=averagenodenumber/ (double)CX; 
cout<<"average recog-right:"<<averagereco<<endl1; 
cout<<"average recog-wrong:"<<averagerecoerr<<endl; 
cout<<"average recog-cannot:"<<averagecannotreco<<endl; 
cout<<"average nodenumber:"<<averagenodenumber<<endl; 
cout<<"averagerule:"<<averagerule/CX<<endl; 
// outl(gtest[0] [0],ON-N) 7 
// cout<<ON-N<<endl; 
// out (&ordata[0] [0],ON); 


// cout<<endl; 
// out(gdata[l0] [0],N); 


cout<<"sss"<<endl; 


void out (double *a,int n) 
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dt 7 


for (i=0;i<n;i++) 


{ 
//cout<<a[ix (A+2)]<< 
//cout<<al[lix (A+2)+A+1]<<","; 
for (j=0;j<A+2;j++) 
{ 

cout<<a[ix (A+2)+j]<<','; 

} 
cout<<endl; 

} 


void sort (double *ar int num, int n)// 对 数组 a 根据 第 n 列 进行 排序 


{ 


int i=0,j=0,k=0; 


double aa; 


=0F 
for(i=0;i<A+2;i++) 
{ 

if (n!=i) k++; 
} 
if (k 一 A+ 2) 
{ 


cout<<" 依 据 错误 的 属性 序号 进行 排序 !"<<endl， 


exit (0); 


for(i=0;i<num;i++) 
{ 

pe 

k=i; 


while (j<num) 


{ 
if(a[jx (A+2)+n]<a[lk* (A+2)+n]) 
{ 
k=j; 
} 
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数据 挖掘 算 : 


j++? 
} 
for (j=0;j<A+2;j++) 
{ 
aa=a[li* (A+2)+j]; 
a[ix (R+2)+j]=a[kx (A+2)+j]; 
a[kx (RAR+2)+]j]=aa7 
} 
$ 
gk 
struct node * root() // 生 成 根 节点 
{ 
struct node * r=new node; 
noden++; 
int i; 
int k; // 标 志 


double gainr [A]; 
int maxi=0; 


double max=07 


// 如 果 训 练 集 为 空 , 则 直接 返回 空 
if (N= 0) return (NULL); 
// 判 断 训练 集 是 否 只 含有 一 个 类 
k=0; 
for (i=1;i<N;i++) 
{ 
if (data[i] [A+1] !=data[0] [A+1]) {k=1;break;} 


else continue; 


} 
// 如 果 标 志 k 一 1, 就 表示 不 止 一 个 类 
if (k 一 0) 
{ 
r->leaf=0; 
->cla=data[0] [A+1]; 
} 
else 
{ 


r->leaf=0; 
r->cla=0; 
for (i=0;i<A;i++) 


{ 
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r->att[i]=0; 
r->attvalue[i]=-1; 
} 
// 计 算 每 个 未 确定 条 件 属 性 的 信息 增益 比 
for (i=0;i<A;i++) 
{ 
gainr[i]=0; 
if(r->att[i]==1) continue; 
gainr[i]=gainratio(&data[0] [0],N,i); 
if(gainr[i]>max) {maxi=i;max=gainr[i];} 
}//maxi 记录 信息 增益 比 最 大 的 属性 (0~3) 
r->i=maxi; 
} 


return (r); 


double gainratio (double * d,int n,int a)// 求 有 n 个 样本 的 数据 集 a 的 属性 a 的 信息 增 


// 益 率 
{ 
sort(d,n,a); 
int i,j,km,s; 
double sp=0; // 属 性 a 的 信息 箭 
double I=0; // 决 策 类 的 箭 
double E=07 // 属 性 a 的 条 件 炉 


double El=0; 

//value 数组 记录 属性 a 的 各 个 取 值 

//double * value=new double(attnum[a]); 
//num 数组 记录 决策 类 各 个 取 值 的 个 数 


int num[C]; 


/ 关 关 关 关 关 关 关 关 关 关 关 关 关 关 关 关 关 关 或 决策 类 的 篇 关 关 关 关 闪闪 关 关 关 关 关 关 关 关 关 关 关 关 关 关 关 关 关 / 
sort(d,n,A+1); 
i=0; 
k=1; 
for (j=1;j<n;j++) 
{ 
if(d[j* (A+2)+A+1]==d[ix (A+2)+A+1]) k++; 
else 
{ 
I=I- (double)k/ (double)n* log( (double)k/ (double)n); 
= 


和 
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I=I- (double)k/ (double)jnx 10g( (double) k/ (double)n); 
//cout<<™ 
/x xx x%xxxxx 求 属性 a 的 炉 和 条 件 炉 xxxxxxxxxxxxxxxxxxxxxx% / 


sort(d,n,a+1); 


"<<I<<endl; 


i=0; 
k=1; 
for (j=1;j<n;j++) 


{ 


if(d[j* (A+2)+a+1]==d[ix* (A+2)+a+1]) {k++; continue;} 
else 
{ 
sp=sp- (double)k/ (double)n* log((double)k/ (double)n);// 炉 


for (m=0;m<C;m++) num[m]=07 


for (s=i;s<j;s++) 
{ 
for (m=0;m< C;mt++) 
{ 
if(d[s* (A+2)+A+1]== (double) (m+1)) num[m]++; 


} 

El=0; 

for (m=0;m<C;m++) 
{ 


if( (double)num[m]/ (double) k==0) continue; 


El=El1- (double)num[m] / (double)k* log((double)num[m]/ (double)k); 
// 条 件 炉 
} 
E=E+ (double)k/ (double)n* El; 


i=j; 
k= 


} 
sp=sp- (double)k/ (double)n* log( (double)k/ (double)n); 


for (m=0;m<C;m++) num[m]=07 
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for(s=i;s<j;st++) 
{ 
for (m=0;m<C;m++) 
{ 
if(d[s* (A+2)+A+1]= (double) (m+1)) num[m]++; 
// break; 


} 
El=0; 
for (m=0;m<C;m++) 
{ 
if((double) num[m]/(double)k==0) continue; 


El=E1- (double) num[m]/ (double) kx log((double)num[m]/ (double)k); // 条 件 炉 


E=E+ (double)k/ (double)n* El; 


// cout<<"E="<<E<<endl; 


// cout<<"sp="<<sp<<endl; 


/xx xx 属性 a 的 条 件 炉 x%% 和 和 / 


if (sp=0) return(-10000); 
return((I-E)/sp); 


struct node *copynode (struct node *a,struct node *b)// 找 贝 a 节点 的 数据 到 b 节 
// 点 , 非 完全 拷贝 ,后 三 项 
// 重 新 附 初 值 


int i; 
b->leaf=a->leaf; 
b->cla=a->cla; 
for (i=0;i<A;i++) 
让 
b->att[i]=a->att [i]; 
b->attvalue[i]=a->attvalue[i]; 
F 
b->i=0; 
for (i=0;i<MAX;i++) 
下 
b->nextvalue [i]=0; 


b->next [i]=NULL; 
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return (b) 


void nextnode (struct node * p)// 根 据 当 前 节点 生成 孩子 节点 , 返回 非 叶 子 节点 的 个 数 


{ 


// 
// 
好 


// 


// 


int notleaf=0; 

sort (&data[0] [0],N,0); 

int i,j,k; 

int jsq; 

struct node *q; 

double gainr [A]; 

int maxi=0; 

double max=0; 

/ 关 关 关 关 关 关 关 关 关 关 关 关 关 关 关 全 成 当前 数组 dx 关 关 % 关 关 关 关 关 关 关 关 / 
double *d; 

int bz [N]; 

int n; //a 中 样本 的 个 数 
for (i=0;i<N;i++) bz[i]=1; ”// 等 于 1 为 满足 节点 p 的 样本 


for (i=0;i<A;i++) 


{ 
if (p->att [i]==0) continue; 
for (j=0;j<N;j++) 
{ 
if(data[j] [i+1]!=p->attvalue[i]) 
bz[j]=bz[j] * 0; 
} 
} 
n=0; 


for (i=0;i<N;i++) 
{ 
if (bz[i]=1) n++; 
} 
cout<<"aaaaaaaaan"<<n<<endl; 
d=new double[n* (A+2)]; 
k=0; 
for (i=0;i<n;i++) 
{ 
while((bz[k] 一 0) sg (k<N)) k++; 
cout<<k<<endl; 
for (j=0;j<A+2;j++) 
{ 
d[ix* (A+2)+j]=datal[k] [j]; 


// 


Kt+? 


out (d,n); 


//cout<<"aaaaaaaaaaaaaan:"<<n<<endl; 


/xxxxxxxxxxxx 生 戌 孩子 节 
sort (gd[0],n, (p->i)+1); 


闫 美美 美美 关 关 关 关 关 关 关 / 


// cout<<"p->i:"<<p->i<<endl; 
k=0; 
jsq=0; // 计 数 器 清 零 
for (i=0;i<n;i++) 
下 
if(d[ix (A+2)+ (p->i)+1]==d[k* (A+2)+ (p->i)+1]) continue; 
q=new node; 
nodent++; 
q=copynode (p,q); 
q->att[p->i]=1; 
q->attvalue [p->i]=d[k*x (A+2)+ (p->i)+1]; 
p->nextvalue [jsq]=d[k* (A+2)+ (p->i)+1]; 
P->next [jsq]=q; 
jsqt+; 
k=i; 
} 
// 最 后 一 个 孩子 节点 
gq=new node; 
nodent++; 
q=copynode (p,q); 
q->att[p->i]=1; 
q->attvalue [p->i]=d[k* (A+2)+ (p->i)+1]; 
p->nextvalue[jsq]=d[k* (A+2)+ (p->i)+1]; 
P->next [jsq]=q; 
jsqt+; 
p->nextvalue[jsq]=-1; 
// 标 志 叶 子 节点 
// cout<<"jsq:"<<jsq<<endl; 
for (i=0;i<jsq;i++) 
{ 
pg cout<<i<<endl; 


if (isleaf (p->next [i])!=0) 
{ 
p->next[i]->leaf=1; 
p->next[i]->cla=isleaf (p->next [i]); 
} 


else 
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// if(p->nextvalue[i] 一 -1) break; 
mot1leaf++ 了 7 


// 计 算 每 个 未 确定 条 件 属性 的 信息 增益 比 


p->next[i]->i=nodemaxi (p->next [i]); 
/LA cout<<"aaaaaaaaa"<<endl; 


nextnode (p->next [i]); 


//return (notleaf); 


} 


int isleaf (struct node * p)// 判 断 节点 p 是 否 为 叶子 节点 ， 若 结果 为 “ 否 " 返 回 0, 若 结果 为 
/人 /是 "返回 决策 类 的 值 


sort (gdata{[0] [0],N,0); 
int i,j,k; 
// int jsq; 
// struct node *q; 
/x 关 关 关 % 关 关 关 关 xx 生成 当前 数组 Gxx%x*%%%%#%/ 
double x*d; 
int bz [N]; 
int n; //d 中 样本 的 个 数 
for (i=0;i<Niit+) bz[i]=1; ”// 等 于 1 为 满足 节点 pp 的 样本 
for (i=0;i<A;i++) 
{ 
if (p->att [i 


=0) continue; 
for (j=0;j<N;j++) 
{ 
if(data[j] [i+1] !=p->attvalue[i]) 
bz[j]=bz[j] * 0; 


} 
DeOf 
for (i=0;i<N;i++) 
{ 
if(bz[i] 一 1) nt++; 
} 
// cout<<"n"<<n<<endl; 


d=new double[n* (A+2)]; 


// 


k=0; 
for (i=0;i<n;i++) 
while ((bz[k] 一 0)&&(k<N) ) k++; 
cout<<k<<endl; 
for (j=0;j<A+2;j++) 
{ 
d[ix (A+2)+j]=datal[k] [j]; 
, 
k++? 


for (i=1;i<n;i++) 
{ 
if(d[ix (A+2)+A+1]!=d[0* (A+2)+A+1]) return(0); 
} 
p->cla= (int)d[0* (A+2)+A+1]; 
return((int)d[Ox (A+2)+A+1]); 


void outnode (struct node * p) // 输 出 节点 P 


{ 


int i; 
cout<<"p->leaf:"<<p->leaf<<endl; 
cout<<"p->cla:"<<p->cla<<endl; 
coutze™ Attbs ws 
for (i=0;i<A;i++) 
{ 

cout<<i<<"\t"; 
} 
cout<<endl; 
cout<<" att[i]: "7 


for (i=0;i<A;i++) 


{ 

cout<<p->att[i]j<<"\t"; 
} 
cout<<endl; 


cout<<"attvalue: "; 
for (i=0;i<A;i++) 
{ 
cout<<p->attvalue[i]<<"\t"; 
了 
cout<<endl; 


cout<<"p->i:"<<p->i<<endl; 
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cout<<" next [i]: "<<endl; 

i=0; 

while (p->nextvalue[i]!=-1) 

{ 
cout<<p->nextvalue[i]<<"\t"<<isleaf (p->next[i])<<endl;; 
了 + 十 了 

和 


cout<<endl; 


cout<<endl; 
cout<<endl; 


cout<<endl; 


void outTree(struct node *p) // 输 出 树 
' 


int i; 


if (isleaf (p) !=0) // 是 叶子 
{ 
for (i=0;i<A;i++) 
A/ cout<<p->attvalue [i] * p->att [i]<<"\t"; 
// cout<<p->cla<<endl; 
/xxxxxx¥ 写 人 规则 集 xxxxxxx/ 
rule[bb] [0]=bb; 
for (i=0;i<A;i++) 
{ 
rule [bb] [i+1]=p->attvalue[i] * p->att([i]; 
} 
rule[bb] [A+1]=p->cla; 


bb++; 


else // 是 中 间 节 点 


i=0; 
while (p->nextvalue [i]!=-1) 
{ 

OutTree (p->next [i]); 


+? 


int nodemaxi (struct node *p) // 求 节点 p 的 i 


{ 

int notleaf=0; 
Sort(&data[0] [0],N,0); 
int i,j,k; 

//int jsq; 

//struct node *q; 
double gainr [A]; 
int maxi=-1; 


double max=-1; 


/ 关 关 关 关 关 关 关 关 关 关 关 关 关 关 生 成 当前 数组 dx%%% 关 % 关 关 关 关 关 关 / 


double *d; 
int bz [N]; 


int ny //d 中 样本 的 个 数 
for (i=0;i<N;i+t+) bz[il]=1;  // 等 于 1 为 满足 节点 p 的 样本 


for (i=0;i<A;i++) 


{ 
if (p->att [i]==0) continue; 
for (j=0;j<N;j++) 
{ 
if(data[j] [i+1]!=p->attvalue[i]) 
bz[j]=bz[j] * 0; 
} 
} 
n=0; 


for (i=0;i<N;i++) 
和 


if (bz [i]=1) n++; 


//cout<<"n"<<n<<endl; 
d=new double[n* (A+2)]; 
k=0; 
for (i=0;i<n;i++) 
{ 
while((bz[k] 一 0) gsg(k<N) ) k++; 
//cout<<k<<endl; 
for (j=0;j<A+2;j++) 
{ 
d[lix* (A+2)+j]=datal[k] [j]; 


Ld 
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// outl(d,n); 


{ 
gainr[j]=07 
if(p->att[j]== inue; 
gainr[j]=gainratio(d,n,j); 
// if(gainr[j]<=0) continue; 
// cout<<" 
if (gainr {maxi=j;max=gainr[j];} 
}//maxi 记录 比 最 大 的 属性 (0~3) 


// cout<<max<<" 


return (maxi); 


i<<endl; 


图 4-9 C4.5 算法 运行 结果 1 


避 
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cog-right :0.66666 
cog-worng :8.1333 


cog-cannot :0.2 


图 4-12 


“EATDDOWNLOADM\firefox\57490835C4.5\C4.51\Debug\c45.exe” 


图 4-13 


C4. 5 算法 运行 结果 5 


决策 树 分 类 算法 


“EATDDOWNLOADVrefoa37490835C45\C451\Debug\cs5 oe ]®@56[(SS 时 9 


-= EO) 


图 4-14 C4.5 算法 运行 结果 6 


4.9 C4.5 算法 的 特点 及 应 用 


4.9.1 C4.5 算法 特点 
C4.5 是 : 产生 的 分 类 规则 易于 理解 ,准确 率 
C4.5 算法 的 缺点 是 : 在 构造 树 的 过 程 中 ,需要 对 数据 行 多 次 的 顺序 扫描 和 排 


算法 效 


4.9.2 C4.5 算法 应 用 


1. C4.5 算法 在 保险 客户 流失 分 析 中 的 应 用 


随 着 我 国 加 入 WTO 后 ,我 国保 险 市 场 将 逐步 对 外 开放 ,保险 市 场 的 竞争 将 更 加 激 
烈 。 客 户 是 保险 公司 生存 和 发 展 的 根基 ,而 吸引 客户 、 保 持 客户 .避免 客户 流失 是 保险 公 
: 键 。 数 据 挖掘 在 保险 领域 有 着 广泛 的 应 用 ,通过 挖掘 ,可 发 现 购 
种 的 客户 的 特征 ,从 而 可 以 向 那些 具有 同样 特征 却 没有 购买 该 保险 险种 的 客户 
还 可 找到 流失 客户 的 特征 ,在 那些 具有 相似 特征 的 客户 还 未 流失 之 前 ,采取 针 
性 的 措施 避免 客户 的 流失 。 利 用 数据 挖掘 中 的 面向 属性 归纳 和 分 类 决策 树 C4. 5 算法 ， 
对 保险 公司 的 客户 基本 信息 进行 分 析 , 找 出 客户 流失 的 特征 ,可 以 帮助 保险 公司 有 针对 性 


尝 谋 | 
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地 改善 客户 关系 ,避免 客户 流失 。 
2. C4. 5 算法 在 高 校 教学 决策 支持 中 的 应 用 


随 着 我 国 高 等 教育 的 发 展 ,各 高 校 的 招生 规模 不 断 扩大 ,教育 模式 也 不 断 更 新 ,使 
基于 校园 网 的 教学 管理 系统 ,实现 了 信息 化 、 网 络 化 的 教学 ,但 同时 也 积累 了 大 量 的 数据 ， 
如 何 从 这 些 数 据 中 挖掘 出 有 价值 的 信息 ,为 学 校 教学 决策 提供 参考 依据 ,是 各 高 校 面临 的 
问题 。 决 策 树 C4. 5 算法 可 以 从 学 校 积累 的 数据 中 进行 有 效 分 类 ,实现 根据 现 有 数据 来 
预测 未 来 的 发 展 趋势 ,例如 可 以 通过 C4. 5 对 学 生成 绩 进行 分 析 , 找 出 影响 学 生成 绩 的 原 
因 , 提 出 相应 的 解决 策略 ,更 好 地 指导 教学 。 


3. C4.5 算法 在 网 络 入 侵 检 测 中 的 应 用 


随 着 计算 机 网 络 技术 的 迅猛 发 展 和 广泛 应 用 ,从 网 络 资源 中 获得 共享 信息 已 经 成 为 
了 人 们 日 常生 活 中 必 不 可 少 的 方式 之 一 。 与 此 同时 ,人 们 也 不 得 不 面 对 由 于 入 侵 而 引发 
的 一 系列 网 络 安全 问题 的 困扰 。 传 统 的 防火 墙 技术 已 经 难以 单独 保障 网 络 的 安全 ,入 侵 
检测 作为 防火 墙 技 术 的 补充 开始 发 挥 出 不 可 替代 的 作用 。 入 侵 检测 是 一 种 通过 实时 监测 
目标 系统 来 发 现 入 侵 攻击 行为 的 安全 技术 。 当 前 的 大 多 数 入 侵 检 测 系统 采用 基于 规则 的 
简单 模式 匹配 技术 ,它们 存在 计算 量 大 、 误 报 漏 报 率 高 等 缺点 。 针 对 这 些 不 足 , 以 决策 树 
方法 作为 描述 模型 ,实现 决策 树 C4. 5 算法 ,使 用 训练 集 构建 分 类 树 来 实现 对 入 侵 行 为 的 
检测 。 决 策 树 算法 具有 构造 速度 快 .分 类 精度 高 ,检测 速率 快 以 及 良好 的 自 适 应 和 自学 习 
等 特点 ,适合 用 于 攻击 检测 中 。 


4.10 小 结 


本 章 内 容 是 决策 树 基本 算法 ,决策 树 分 类 算法 通常 分 为 两 个 步骤 : 决策 树 生 成 和 决 
策 树 修剪 。 重 点 介绍 了 两 种 决策 树 分 类 算法 : ID3 算法 和 C4. 5 算法 。 本 章 阐述 了 它们 
的 原理 ,C4. 5 算法 的 核心 思想 与 ID3 完全 一 样 。 总 结 了 它们 的 优点 与 缺陷 ,并 佐 以 实例 
和 程序 。 最 后 简单 介绍 了 它们 的 应 用 。 


. 连续 属性 如 何 离散 化 ?请 用 ID3 算法 或 C4. 5 算法 举例 说 明 。 

. 结合 实例 ,应 用 C4. 5 算法 挖掘 决策 树 , 并 与 ID3 算法 比较 结果 。 
. 决策 树 算法 的 过 拟 合 问 题 如 何 解决 ? 

. 决策 树 算法 的 实质 是 什么 ? 


心 wD 
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第 5 章 贝 叶 斯 分 类 算法 


5.1 基本 概念 
5.1.1 主观 概率 


贝 叶 斯 方法 是 一 种 研究 不 确定 性 的 推理 方法 。 不 确定 性 常用 贝 叶 斯 概率 表示 , 它 是 
一 种 主观 概率 。 通 常 的 经 典 概率 代表 事件 的 物理 特性 ,是 不 随 人 意识 变化 的 客观 存在 。 
而 贝 叶 斯 概率 则 是 人 的 认识 ,是 个 人 主观 的 估计 , 随 个 人 主观 认识 的 变化 而 变化 。 例 如 事 
件 的 贝 叶 斯 概率 只 指 个 人 对 该 事件 的 置信 程度 ,因此 是 一 种 主观 概率 。 

投掷 硬币 可 能 出 现 正 反面 两 种 情形 ,经 典 概率 代表 硬币 正面 朝 上 的 概率 ,这 是 一 个 客 
观 存在 ;而 贝 叶 斯 概率 则 指 个 人 相信 硬币 会 正面 朝 上 的 程度 。 

同样 的 例子 还 有 ,一 个 企业 家 认为 “一 项 新 产品 在 未 来 市 场 上 销售 "的 概率 是 0.8 ,这 
里 的 0. 8 是 根据 他 多 年 的 经 验 和 当时 的 一 些 市 场 信息 综合 而 成 的 个 人 信念 。 

一 个 投资 者 认为 “购买 某 种 股票 能 获得 高 收益 ”的 概率 是 0.6, 这 里 的 0.6 是 投资 者 
根据 自己 多 年 股票 生意 经 验 和 当时 股票 行情 综合 而 成 的 个 人 信念 。 

贝 叶 斯 概率 是 主观 的 ,对 其 估计 取决 于 先 验 知识 的 正确 和 后 验 知识 的 丰富 和 准确 。 
因此 贝 叶 斯 概率 常常 可 能 随 个 人 掌握 信息 的 不 同 而 发 生变 化 。 

对 即将 进行 的 羽毛 球 单打 比赛 结果 进行 预测 ,不 同人 对 胜 负 的 主观 预测 都 不 同 。 如 
果 对 两 人 的 情况 和 各 种 现场 的 分 析 一 无 所 知 , 就 会 认为 两 者 的 胜 负 比 例 为 1 : 1; 如 果 知 
道 其 中 一 人 为 本 届 奥 运 会 羽毛 球 单打 冠军 ,而 男 一 人 只 是 某 省 队 新 队员 , 则 可 能 给 出 的 概 
率 是 奥运 会 冠军 和 省 队 队 员 的 胜 负 比 例 为 3: 1; 如 果 进 一 步 知道 奥运 冠军 刚好 在 前 一 场 
比赛 中 受过 伤 , 则 对 他 们 胜 负 比 例 的 主观 预测 可 能 会 下 调 为 2: 1。 所 有 的 预测 推断 都 是 
主观 的 ,基于 后 验 知识 的 一 种 判断 ,取决 于 对 各 种 信息 的 掌握 。 

经 典 概率 方法 强调 客观 存在 . 它 认 为 不 确定 性 是 客观 存在 的 。 在 同样 的 羽毛 球 单 
打 比 赛 预 测 中 ,从 经 典 概率 的 角度 看 ,如 果 认 为 胜 负 比 例 为 1: 1, 则 意味 着 在 相同 的 条 
件 下 ,如 果 两 人 进行 100 场 比赛 ,其 中 一 人 可 能 会 取得 50 场 的 胜利 ,同时 丢掉 另外 
50 场 。 

主观 概率 不 像 经 典 概率 那样 强调 多 次 重复 ,因此 在 许多 不 可 能 出 现 重复 事件 的 场 
合 能 得 到 很 好 的 应 用 。 上 面 提 到 的 企业 家 对 未 来 产品 的 预测 ,投资 者 对 股票 是 否 能 取 
得 高 收益 的 预测 以 及 羽毛 球 比 赛 胜 负 的 预测 中 ,都 不 可 能 进行 重复 的 实验 ,因此 ,利用 
主观 概率 ,按照 个 人 对 事件 的 相信 程度 而 对 事件 做 出 推断 是 一 种 很 合理 且 易 于 解释 的 
方法 。 
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5.1.2 贝 叶 斯 定理 


1. 基础 知识 


(1) 已 知事 件 A 发 生 的 条 件 下 ,事件 B 发 生 的 概率 ,叫做 事件 B 在 事件 A 发 生 下 的 
条 件 概率 , 记 为 P(B|A) ,其 中 P(A) 叫做 先 验 概率 ,PC(B|A) 叫 做 后 验 概率 ,计算 条 件 概 


率 的 公式 为 
_ P(ANB) 机 
P(B|A)= pA (5-1) 
条 件 概率 公式 通过 变形 得 到 乘法 公式 为 
P(ANB)= P(B|A)P (A) (5-2) 


(2) 设 A,B 为 两 个 随机 事件 ,如 果 有 P(AB)= 二 P(A)P(B) 成 立 , 则 称 事件 A 和 B 
相互 独立 。 此 时 有 P(A|B)= 二 P(A),P(AB) 二 P(A)P(B) 成 立 。 
设 Al,As，…,A, 为 n 个 随机 事件 ,如 果 对 其 中 任意 m(2<m<n) 个 事件 Au ， 
，… ,A ,都 有 
P(A ,Au Au )= PCAs P(A )*%P(AL,) (5-3) 
成 立 , 则 称 事件 Al ,A,,…,A, 相互 独立 。 


A 


2 


(3) 设 B1,B,,…,B, 为 互 不 相 容 事件 ,P(B;) 记 0,i==1,2,…,n, 且 U B; 二 QQ, 对 任意 
的 事件 AC U Bi, 计 算 事件 A 概率 的 公式 为 


P(A)= VPCBYP CANB,) (5-4) 
i=l] 
设 Bi ,B: ,…,B, 为 互 不 相 容 事件 ,P(B;) 放 0,i 二 1,2,…,n,P(A) 记 0, 则 在 事件 A 
发 生 的 条 件 下 ,事件 B; 发 生 的 概率 为 
PRIAy= = P(B;)P (A|B;) (5-5) 
P(A) 
>)P(BD)P(A|1B,) 
则 称 该 公式 为 贝 叶 斯 公式 。 
2. 贝 叶 斯 决策 准则 


假设 Q 二 {C1,C;,…,C,} 是 有 m 个 不 同类 别 的 集合 ,特征 向 量 X 是 d 维 向 量 ， 
P(X|C;) 是 特征 向 量 X 在 类 别 C; 状态 下 的 条 件 概率 , P(C; ) 为 类 别 C; 的 先 验 概率 。 根 
据 前 面 所 述 的 贝 叶 斯 公式 ,后 验 概率 P(C; |X) 的 计算 公式 为 


PX | Gy 


PeGCr|¥= Px PC 《5=6 


其 中 P(X)= Spexlo, YPAECYS 
贝 叶 斯 决策 准则 为 : 如 果 对 于 任意 ; 径 六 都 有 P(CC:|X) 之 PCCi|X) 成 立 , 则 样本 模 
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式 X 被 判定 为 类 别 Ci。 
3. 极 大 后 验 假设 


根据 贝 叶 斯 公式 可 得 到 一 种 计算 后 验 概率 的 方法 : 在 一 定 假设 的 条 件 下 ,根据 先 验 
概率 和 统计 样本 数据 得 到 的 概率 ,可 以 得 到 后 验 概率 。 
令 P(c) 是 假设 c 的 先 验 概率 , 它 表示 < 是 正确 假设 的 概率 ,P(X) 表 示 的 是 训练 样本 
X 的 先 验 概率 ,P(X|c) 表 示 在 假设 c 正确 的 条 件 下 样本 X 发 生 或 出 现 的 概率 ,根据 贝 叶 
斯 公式 可 以 得 到 后 验 概率 的 计算 公式 为 
Pic|X)= POP C5-7) 


X) 
设 C 为 类 别 集合 也 就 是 待 选 假设 集合 ,在 给 定 未 知 类 别 标号 样本 X 时 ,通过 计算 找 
到 可 能 性 最 大 的 假设 cE C, 具 有 最 大 可 能 性 的 假设 或 类 别 被 称 为 极 大 后 验 假设 


(maximum a posteriori) , 记 作 cos 。 


Cmap 一 argmaxP (c|¥X)= argmax Ee 全 一 一 (5-8) 


由 于 P(X) 与 假设 c 无 关 , 故 上 式 可 变 为 
二 argmaxP (X|c)P(c) (5-9) 
当 没 有 给 定 类 别 概率 的 情形 下 ,可 做 一 个 简单 的 假定 。 假 设 C 中 每 个 假设 都 有 相等 的 先 
验 概率 ,也 就 是 对 于 任意 的 ci,c; EC(ij) ,都 有 P(c)=P(c) ,再 做 进一步 简化 ,只 需 
计算 P(X|c) 找 到 使 之 达到 最 大 的 假设 。P (X|c) 被 称 为 极 大 似 然 假设 (maximum 
likelihood) , 记 为 cm。 
cal 一 argmaxP (X|c) (5-10) 


5.2 贝 叶 斯 分 类 算法 原理 
5.2.1 朴素 贝 叶 斯 分 类 模型 


贝 叶 斯 分 类 器 诸多 算法 中 朴素 贝 叶 斯 分 类 模型 是 最 早 的 。 它 的 算法 逻辑 简单 ,构造 
的 朴素 贝 叶 斯 分 类 模型 结构 也 比较 简单 ,运算 速度 比 同类 算法 快 很 多 ,分 类 所 需 的 时 间 也 
比较 短 ,并 且 大 多 数 情况 下 分 类 精度 也 比较 高 ,因而 在 实际 中 得 到 了 广泛 的 应 用 。 该 分 类 
器 有 一 个 朴素 的 假定 : 以 属性 的 类 条 件 独立 性 假设 为 前 提 , 即 在 给 定 类 别 状态 的 条 件 下 ， 
属性 之 间 是 相互 独立 的 。 朴 素 贝 叶 斯 分 类 器 的 结构 示意 图 如 图 5-1 所 示 。 

假设 样本 空间 有 mm 个 类 别 {Ci ,Cs，…,C。) ,数据 集 有 个 属性 Ai,As,…,A, ,给 定 
一 未 知 类 别 的 样本 X= (zi ,zs,… ,xz,) ,其 中 zx; 表示 第 i 个 属性 的 取 值 , 即 x;€ A;, 则 可 
用 贝 叶 斯 公式 计算 样本 X= (zi ,zs，,… ,zx,) 属 于 类 别 Ci(1 志 Rk 过 m) 的 概率 。 由 贝 叶 斯 公 


式 ,有 PC DO= PC CC sp (Cp (x|C), 即 要 得 到 PCi|X) 的 值 ,关键 是 


要 计算 PCX|G) 和 P (Ci)。 令 C(X) 为 X 所 属 的 类 别 标签 ,由 贝 叶 斯 分 类 准则 ,如 果 对 
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图 5-1 朴素 贝 叶 斯 分 类 器 的 结构 示意 图 


于 任意 i 取 j 都 有 P(C:X) 二 PCC |X) 成 立 , 则 把 未 知 类 别 的 样本 XX 指派 给 类 别 Ci;, 贝 


叶 斯 分 类 器 的 计算 模型 为 
V(X)= argmaxP (Ci)P (X|C:) (5-11) 
由 朴素 贝 叶 斯 分 类 器 的 属性 独立 性 假设 ,假设 各 属性 zx; (i 二 1,2,…,n) 间 相互 类 条 件 独 
立 , 则 
P(X|Ci)= TTPcmlcn (5-12) 
于 是 式 (5-11) 被 修改 为 
V(X)= argmaxP (C) [P|C) (5-13) 


P(C;) 为 先 验 概率 ,可 通过 P(C;) 二 di/d 计算 得 到 ,其 中 d; 是 属于 类 别 C; 的 训练 样本 的 
个 数 ;d 是 训练 样本 的 总 数 。 若 属性 A 是 离散 的 , 则 概率 可 由 P(z|C;) 二 da/d; 计算 得 
到 ,其 中 di 是 训练 样本 集合 中 属于 类 Ci 并 且 属 性 A 取 值 为 zx 的 样本 个 数 ,di; 是 属于 类 
Ci 的 训练 样本 个 数 。 朴 素 贝 叶 斯 分 类 的 工作 过 程 如 下 : 

(1) 用 一 个 维特 征 向 量 XX= (zzz,…,zw) 来 表示 数据 样本 ,描述 样本 X 对 "个 属 
性 Al,As,…,A, 的 量度 。 

(2) 假定 样本 空间 有 m 个 类 别 状态 Ci ,C: ,…,Cn, 对 于 给 定 的 一 个 未 知 类 别 标号 的 
数据 样本 X, 分 类 算法 将 X 判定 为 具有 最 高 后 验 概率 的 类 别 , 也 就 是 说 ,朴素 贝 叶 斯 分 类 
算法 将 未 知 类 别 的 样本 X 分 配给 类 别 C,, 当 且 仅 当 对 于 任意 的 户 始 终 有 P(CC:|X) 二 
P(C; |X) 成 立 ,1j 生 m,j 关 i。 使 P(C;|X) 取 得 最 大 值 的 类 别 C; 被 称 为 最 大 后 验 假定 。 

(3) 由 于 P(X) 不 依赖 类 别 状态 ,对 于 所 有 类 别 都 是 常数 , 故 根据 贝 叶 斯 定理 ,最 大 
化 PCC; |X) 只 需要 最 大 化 P(X|C;)P(C;) 即 可 。 如 果 类 的 先 验 概率 未 知 , 则 通常 假设 
这 些 类 别 的 概率 是 相等 的 , 即 P(C)= 二 PC(Cs)= 二 … 二 PP(C,), 所 以 只 需要 最 大 化 
P(X|C;) 即 可 ,否则 就 要 最 大 化 P(X|Ci)P (C;)。 其 中 可 用 频率 Si/S 对 P(C;) 进 行 估 
计 计 算 ,S; 是 给 定 类 别 C; 中 训练 样本 的 个 数 ;S 是 训练 样本 (实例 空间 ) 的 总 数 。 

(4) 当 实 例 空间 中 训练 样本 的 属性 较 多 时 ,计算 P(X|C;) 可 能 会 比较 费时 ,开销 较 
大 ,此 时 可 以 做 类 条 件 独立 性 的 假定 : 在 给 定 样本 类 别 标号 的 条 件 下 ,假定 属性 值 是 相互 


条 件 独立 的 ,属性 之 间 不 存在 任何 依赖 关系 , 则 下 面 等 式 成 立 : PCX|C)= TITPcnlc)。 
k=1 
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其 中 概率 PCz |C),P(zs|CG),…,P(z,|C;) 的 计算 可 由 样本 空间 中 的 训练 样本 进行 估 
计 。 实 际 问题 中 根据 样本 属性 A 的 离散 连续 性 质 ,考虑 下 面 两 种 情形 : 
。 如 果 属 性 A 是 连续 的 , 则 一 般 假定 它 服从 正 态 分 布 ,从 而 来 计算 类 条 件 概率 。 
。 如 果 属 性 A 是 离散 的 , 则 PCz|C;) 二 S/S;, 其 中 Si 是 在 实例 空间 中 类 别 为 C; 
的 样本 中 属性 A 上 取 值 为 zx 的 训练 样本 个 数 , 而 S; 是 属于 类 别 C; 的 训练 样本 
个 数 。 
(5) 对 于 未 知 类 别 的 样本 X, 对 每 个 类 别 C; 分 别 计算 PCX|Ci)P(C;)。 样 本 XX 被 认 
为 属于 类 别 Ci , 当 且 仅 当 P(X|CD)P(CD)>PCXICD)P(CC) ,1 过 j 过 m,j 关 i, 也 就 是 说 样 
本 X 被 指派 到 使 PCX|C:)P(CC;) 取 得 最 大 值 的 类 别 C;。 
朴素 贝 叶 斯 分 类 模型 的 算法 描述 如 下 : 
(1) 对 训练 样本 数据 集 和 测试 样本 数据 集 进行 离散 化 处 理 和 缺失 值 处 理 。 
(2) 扫描 训练 样本 数据 集 , 分 别 统计 训练 集中 类 别 C; 的 个 数 d; 和 属于 类 别 C; 的 样 
本 中 属性 A 取 值 为 rx 的 实例 样本 个 数 dx ,构成 统计 表 。 
(3) 计算 先 验 概率 P(C;) 二 di/d 和 条 件 概 率 P (A 二 zx |Ci) 二 dn /di, 构 成 概率 表 。 
(4) 构建 分 类 模型 V(X) =argmaxP (Ci PE|G SY 
(5) 扫描 待 分 类 的 样本 数据 集 ,调用 已 得 到 的 统计 表 、 概 率 表 以 及 构建 好 的 分 类 准 
则 ,得 出 分 类 结果 。 


5.2.2 贝 叶 斯 信念 网 络 


朴素 贝 叶 斯 分 类 器 的 条 件 独 立 假设 似乎 太 严格 了 ,特别 是 对 那些 属性 之 间 有 一 定 相 
关 性 的 分 类 问题 。 下 面 介绍 一 种 更 灵活 的 类 条 件 概 率 PCX|Y) 的 建 模 方法 。 该 方法 不 
要 求 给 定 类 的 所 有 属性 条 件 独 立 ,而 是 允许 指定 哪些 属性 条 件 独立 。 


1. 模型 表示 


贝 叶 斯 信念 网 络 (Bayesian Belief Networks,BBN) ,简称 贝 叶 斯 网 络 , 用 图 形 表 示 一 
组 随机 变量 之 间 的 概率 关系 。 贝 叶 斯 网 络 有 以 下 两 个 主要 成 分 : 

(1) 一 个 有 向 无 环 图 (Directed Acyclic Graph,DAG) ,表示 变量 之 间 的 依赖 关系 。 

(2) 一 个 概率 表 ,把 各 节点 和 它 的 直接 父 节点 关联 起 来 。 

考虑 三 个 随机 变量 A、B 和 C ,其 中 A 和 B 相 互 独立 ,并 且 都 直接 影响 第 三 个 变量 C。 
三 个 变量 之 间 的 关系 可 以 用 图 5-2(a) 中 的 有 向 无 环 图 概括 。 图 中 每 个 节点 表示 一 个 变 
量 ,每 条 弧 表示 变量 之 间 的 依赖 关系 。 如 果 从 X 到 Y 有 一 条 有 向 弧 , 则 和 是 Y 的 父母 ,Y 
是 X 的 子女 。 另 外 ,如 果 网 络 中 存在 一 条 从 X 到 Z 的 有 向 路 径 , 则 X 是 2 的 祖先 ,而 Z 
是 X 的 后 代 。 例 如 ,在 图 5-2(b) 中 ,A 是 D 的 后 代 ,D 是 B 的 祖先 ,而 且 B 和 D 都 不 是 
A 的 后 代 节 点 。 贝 叶 斯 网 络 的 重要 性 质 是 : 贝 叶 斯 网 络 中 的 一 个 节点 ,如 果 它 的 父母 节 
点 已 知 , 则 它 条 件 独立 于 它 所 有 的 非 后 代 节 点 。 图 5-2(b) 中 给 定 C,A 条 件 独立 于 B 和 
D ,因为 B 和 D 都 是 A 的 非 后 代 节点 。 朴 素 贝 叶 斯 分 类 器 中 的 条 件 独 立 假设 也 可 以 用 贝 
叶 斯 网 络 来 表示 。 如 图 5-2(c) 所 示 , 其 中 Y 是 目标 类 , { Xi ,Xs ,…,Xs } 是 属性 集 。 
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图 5-2 贝 叶 斯 信念 网 络 


在 贝 叶 斯 信念 网 中 ,除了 网 络 拓 扑 结 构 要 求 的 条 件 独立 性 外 ,每 个 节点 还 关联 一 个 概 
率 表 。 如 果 节 点 X 没有 父母 节点 , 则 表 中 只 包含 先 验 概率 PCX) 。 如 果 节点 X 只 有 一 个 
父母 节点 Y, 则 表 中 包含 条 件 概 率 P(X|Y)。 如 果 节 点 X 有 多 个 父母 节点 
{YY ,YY ，…,Y) , 则 表 中 包含 条 件 概 率 PCX|Y ,Ys ,…,Y)。 

如 图 5-3 所 示 是 贝 叶 斯 网 络 的 一 个 例子 ,对 心脏 病 或 心口 痛 患 者 建 模 。 假 设 图 中 
每 个 变量 都 是 二 值 的 。 心 脏 病 节点 (HD) 的 父母 节点 对 应 于 影响 该 疾病 的 危险 因素 ， 
例如 锻炼 (E) 和 饮食 (D) 等 。 心 脏 病 节点 的 子 节点 对 应 于 该 病 的 症状 ,如 胸痛 (CP) 和 
高 血压 (BP) 等 。 如 图 5-3 所 示 , 心 口 痛 (HB) 可 能 源 于 不 健康 的 饮食 ,同时 又 可 能 导致 


胸痛 。 
E=yes D= 健 康 
0.7 0.25 
HD=yes 
Eyes HB=yes 
D- 健 康 | 0 02 
E=yes 0.85 
0.45 
D= 不 健康 
E=no 
D= 健 康 0.55 
Er-no CP=yes 
0.75 本 
D= 不 健康 
0.8 
BP= 高 
HD=yes 0.85 0.6 
HD=no 0.2 HD=no 04 
HB=yes 2 
HD=no 
HB=no 0 


图 5-3 发 现 心脏 病 和 心口 痛 病 人 的 贝 叶 斯 网 


影响 疾病 的 危险 因素 对 应 的 节点 只 包含 先 验 概率 ,而 心脏 病 、 心 口 痛 以 及 它们 的 相 
应 症状 所 对 应 的 节点 都 包含 条 件 概率 。 为 了 节省 空间 ,图 中 省 略 了 一 些 概率 。 注 意 
P(X=x)=1P(X=zx),P(X=zx|Y)=1 一 P(X=zx|Y), 其 中 x 表示 与 x 相反 的 结 
果 。 因 此 ,省 略 的 概率 可 以 很 容易 求 得 。 例 如 ,条 件 概率 
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了 (心脏 病 一 no| 锻 炼 一 no 饮食 二 健康 ) =1 一 P( 心 脏 病 一 yes| 银 炼 一 no, 饮 食 二 健康 ) 
一 1 一 0.55 
一 0. 45 


2. 模型 建立 


贝 叶 斯 网 络 的 建 模 包括 两 个 步骤 : 创建 网 络 结构 以 及 估计 每 一 个 节点 的 概率 表 中 的 
概率 值 。 网 络 拓扑 结构 可 以 通过 对 主观 的 领域 专家 知识 编码 获得 ,算法 5. 1 给 出 了 归纳 
贝 叶 斯 网 络 拓扑 结构 的 一 个 系统 过 程 。 

算法 5.1 贝 叶 斯 网 络 拓扑 结构 的 生成 算法 。 

(1) 设 T= (Xi,Xs，,…,Xs) 表 示 变 量 的 一 个 总 体 次 序 。 

(2) FOR j=1 to d DO。 

(3) 令 Xr (1) 表 示 了 中 第 7 个 次 序 最 高 的 变量 。 

(4) 令 rCXrG1)) 王 (XXXr(G 一 1)} 表 示 排 在 Xr 07) 前 面 的 变量 的 集合 。 

(5) 从 r(CXrG)) 中 去 掉 对 Xi 没有 影响 的 变量 (使 用 先 验 知识 ) 。 

(6) 在 Xr(j) 和 x(Xr(j)) 中 剩余 的 变量 之 间 夯 弧 。 

(7) END FOR。 

我 们 以 图 5. 3 为 例 解 释 上 述 步骤 ,执行 步 又 (1) 后 , 设 变量 次 序 为 (E,D,HD, HB， 
CP,BP) ,从 变量 D 开始, 经 过 步骤 (2) 一 步骤 (7) ,得 到 以 下 条 件 概 率 : 
P(CD|E) 化 简 为 PCD)。 

PCHD|E,D) 不 能 化 简 。 
PCHB|HD,E,.D) 化 简 为 PCHB|D)。 
P(CP|HB,HD,E,D) 化 简 为 P(CP|HB.,HD)。 
P(BP|CP|HB.,HD.E.D) 化 简 为 P(BP|HD)。 

基于 以 上 条 件 概率 ,创建 节点 之 间 的 弧 (E.HD)、(D,HD)、(D,HB)、(HD.CP)、 
(HB,CP) 和 (HD,BP)。 这 些 弧 构 成 了 如 图 5-3 所 示 的 网 络 结构 。 

算法 5. 1 保证 生成 的 拓扑 结构 不 包括 环 。 这 一 点 的 证 明 也 很 简单 。 如 果 存 在 环 ， 
那么 至 少 有 一 条 弧 从 低 序 节点 指向 高 序 节点 ,并 且 至 少 存在 另 一 条 弧 从 高 序 节点 指向 
低 序 节点 。 由 于 算法 5. 1 不 允许 从 低 序 节点 到 高 序 节点 的 弧 存 在 ,因此 拓扑 结构 中 不 
存在 环 。 

然而 ,如 果 对 变量 采用 不 同 的 排序 方案 ,得 到 的 网 络 拓扑 结构 可 能 会 有 变化 。 某 些 拓 
扑 结构 可 能 质量 很 差 , 因 为 它 在 不 同 的 节点 对 之 间 产 生 了 很 多 条 弧 。 从 理论 上 讲 , 可 能 需 
要 检查 所 有 d! 种 可 能 的 排序 才能 确定 最 佳 的 拓扑 结构 ,这 是 一 项 计算 开销 很 大 的 任务 。 
一 种 替代 的 方法 是 把 变量 分 为 原因 变量 和 结果 变量 :然后 从 各 原因 变量 向 其 对 应 的 结果 
变量 画 弧 。 这 种 方法 简化 了 贝 叶 斯 网 络 结构 的 建立 。 一 旦 找到 了 合适 的 拓扑 结构 ,与 各 
节点 关联 的 概率 表 就 确定 了 。 对 这 些 概 率 的 估计 比较 容易 ,与 朴素 贝 叶 斯 分 类 器 中 所 用 
的 方法 类 似 。 
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5.3 贝 叶 斯 算法 实例 分 析 
5.3.1 朴素 贝 叶 斯 分 类 器 


【 例 5.1】 应 用 朴素 贝 叶 斯 分 类 器 来 解决 这 样 一 个 分 类 问题 : 根据 天 气 状况 来 判断 
某 天 是 否 适合 打 网 球 。 给 定 如 表 5-1 所 示 的 14 个 训练 实例 ,其 中 每 一 天 由 属性 outlook， 
temperature,humidity ,windy 来 表征 ,类 属性 为 play tennis。 


表 5-1 14 个 训练 实例 


day outlook temperature hu ty windy play tennis 
1 sunny hot high weak no 
2 sunny hot | high | strong no 
| rl | ee 
| rn 汪 
6 rain cool Strong no 
8 sunny mild weak no 
9 sunny cool normal weak yes 
10 rain mild normal weak yes 
11 sunny mild strong yes 
| mi 风 
14 rain mild strong no 


现 有 一 测试 实例 x: 一 outlook 二 sunny, temperature 二 cool, humidity == high, windy 一 
strong 二 , 问 这 一 天 是 否 适合 打 网 球 ? 显然 ,我 们 的 © 
任务 就 是 要 预测 此 新 实例 的 类 属性 play tennis 的 取 
值 (yes 或 no), 为 此 ,我 们 构建 了 如 图 5-4 所 示 的 朴 
素 贝 叶 斯 网 络 分 类 器 。 
图 中 的 类 节点 C 表示 类 属性 play tennis, 其 他 
4 个 节点 Al ,A: ,Ai ,A, 分 别 代表 4 个 属性 outlook， 中 外 中 由 
temperature,humidity, windy, 类 节点 C 是 所 有 属 图 54 朴素 贝 叶 斯 分 类 器 的 结构 
性 节点 的 父亲 节点 ,属性 节点 和 属性 节点 之 间 没 有 
任何 的 依赖 关系 。 根 据 公 式 有 
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V(rz)= argmaxP(c)P(sunny|c)P(Ccool|c)PChigh|c)PCstrong|c) 


cE 《yes*no } 
为 计算 VCz), 需要 从 如 表 5-1 所 示 的 14 个 训练 实例 中 估计 出 概率 。 
P(yes),PCsunny|yes),P(cool|yes),PChigh|yes),PCstrong|yes),PCno)， 
P(sunny|no),P(coollno),PChigh|no),P(Cstrong|no) 。 


具体 的 计算 如 下 : 
Pl(yes)= 9/14 
PCsunny|yes) 一 2/9 
Plcool|yes)= 3/9 
P(high|yes)= 3/9 
Plstrong|yes)= 3/9 
P(no)= 5/14 
Pl(sunny|no)= 3/5 
Plcool|no)= 1/5 
PChigh|no)= 4/5 
Plstrong|no)= 3/5 
所 以 有 


Plyes)P(sunny|yes)P(cool|yes)P (high|yes)P(strong|yes)= 0.005 291 

Plno)P(sunny|no)P(cool|no)P (high|no)P (strong|no)= 0.0205704 
可 见 ,朴素 贝 叶 斯 分 类 器 将 此 实例 分 类 为 no。 

【 例 5.2】 应 用 朴素 贝 叶 斯 分 类 器 来 解决 这 样 一 个 分 类 问题 : 给 出 一 个 商场 顾客 数 

据 库 (训练 样本 集合 ) ,判断 某 一 顾客 是 否 会 买 电 脑 。 给 定 如 表 5-2 所 示 的 15 个 训练 实 
例 , 其 中 每 个 实例 由 属性 age,income,student,credit rating 来 表征 ,样本 集合 的 类 别 属性 
为 buy computer, 该 属性 有 两 个 不 同 的 取 值 , 即 {yes,no}, 因 此 就 有 两 个 不 同 的 类 别 
(m 二 2)。 设 C 对 应 yes 类 别 ,C: 对 应 no 类 别 。 


表 5-2 15 个 训练 实例 


age income student credit rating buy computer 
30 high no fair no 
<30 high no excellent no 
31…40 high no fair yes 
>40 medium fair yes 
>40 low fair yes 
二 40 low excellent no 
31…40 low excellent yes 
30 medium fair no 
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age income student credit rating buy computer 
去 30 low fair yes 
二 40 medium fair yes 
30 medium excellent yes 
31…40 medium excellent yes 
31…40 high fair yes 
>40 medium excellent no 


现 有 一 测试 实例 zx: (age 三 ==30,income 二 medium,student 二 yes,credit rating 一 
fair) , 问 : 这 一 实例 是 否 会 买 电脑 ? 我 们 的 任务 是 要 判断 给 定 的 测试 实例 是 属于 Ci 还 
是 C: 。 

根据 公式 有 

VCz)= argmax P(c)P (age 30| OP (medium| oO)P (yes| eyP (fair|c) 


cE {yes,no} 
为 计算 VCz) ,我们 计算 每 个 类 的 先 验 概率 P (Ci)。 
P(C;): P(buy computer = 'yes')= 9/14 = 0.643 
Pl(buy computer = mo) = 5/14 = 0.357 
Ci) ,i 二 1、2, 计 算 下 面 的 条 件 概率 。 


/9 = 0. 222 


为 计算 P(X 


P(age =' 达 30'| buy computer = 


Plage ='< 30'| buy computer = 

Plincome = medium'| buy computer = 'yes')= 4/9 = 0.444 

Plincome = medium'| buy computer = 'no')= 2/5 = 0.4 

Plstudent = 'yes'| buy computer = 'yes') = 6/9 = 0. 667 

Plstudent = 'yes'|buy computer = 'ho')= 1/5 = 0.2 

Plcredit rating = ‘fair'|buy computer = 'yes')= 6/9 = 0.667 

Plcredit rating = ‘fair'|buy computer = no')= 2/5 = 0.4 

X= (age<30,income = medium.student = yes,credit rating = fair) 

P(X|Ci): PCX|buy computer = 'yes')= 0. 222 X 0.444 X 0.667 xX 0.667 = 0.044 
P(X|buy computer 一 mo) 一 0.6X0.4X0.2X0.4 一 0.019 

Ci)» P(C): PCOX|buy computer = 'yes'). P(buy computer = 'yes') = 0.028 


P(X 


P(X|buy computer = mo)。PCbuy computer = no') = 0.007 


因此 ,对 于 样本 X, 朴 素 贝 叶 斯 分 类 预测 buy computer 一 'yes" 


5.3.2 BBN 


使 用 如 图 5-3 所 示 的 BBN 来 诊断 一 个 人 是 否 患 有 心脏 病 。 下 面 阐释 在 不 同 的 情况 
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下 如 何 做 出 诊断 。 

情况 一 : 没有 先 验 信息 。 

在 没有 任何 先 验 信息 的 情况 下 ,可 以 通过 计算 先 验 概率 P(HD==yes) 和 P(HD= 
no) 来 确定 一 个 病人 是 否 可 能 患 心脏 病 。 为 了 表述 方便 , 设 a€ {yes,no} 表 示 锻 炼 的 两 个 
值 ,8E {健康 ,不 健康 } 表 示 饮 食 的 两 个 值 。 


P(HD= yes)= 2》) DP(HD= yes|E=aD= BP(E=a,D=8) 
Bp 


=>)DP(HD= yes|E=a,D=PBP(E=a)P(D=8) 
« 8 


=0.25 X0.7X0.25 十 0.45X0.7X0.75 
十 0.55 X0.3X0.25 十 0.75X0.3X0.75 
一 0. 49 

因为 P(HD=no)=1 一 P(HD= yes) 


0.51, 所 以 ,此 人 不 得 心脏 病 的 概率 略微 大 


号 


情况 二 : 高 血压 。 
如 果 一 个 人 有 高 血压 ,可 以 通过 比较 后 验 概率 PC(HD==yes|BP= 高 ) 和 P(HD=no| 
BP 二 高 ) 来 诊断 他 是 否 患 有 心脏 病 。 为 此 ,必须 先 计 算 PC(BP 王 高 ) 。 


P(BP = 高 )= 2)P(BP = 高 |HD = XP(HD=y) 
7 


一 0. 85 X 0.49 二 0.20X0.51 = 0.5185 
其 中 YE {yes,no)。 因 此 ,此 人 患 心脏 病 的 后 验 概率 是 
| _P(BP = 高 HD = yes)P(HD = yes) 
PCHD yes|BP 高 ) PCBE 三 高) 


_0.85X0.49 


Gl 0 


同 理 ,P(HD==no|BP= 高 )=1 一 P(HD==yes|BP= 高 )==1 一 0.8033 二 0.1967。 因 此 , 当 
一 个 人 有 高 血压 时 ,他 患 心脏 病 的 危险 就 增加 了 。 

情况 三 : 高 血压 、 饮 食 健 康 、 经 常 锻炼 身体 。 

假设 得 知 此 人 经 常 锻炼 身体 并 且 饮 食 健 康 。 加 上 这 些 新 信息 ,此 人 患 心脏 病 的 后 验 
概率 为 


P(HD = yes|BP = 高 ,D = 健康 ,E = yes) 

P(BP = 高 |HD = yes,D = 健康 ,E = yes) 

[ P(BP == 高 TD = 健康 ,E = yes) ] 

X P(HD = yes|D = 健康 ,E = yes) 
_ P(BP = 高 |HD 二 yes)P(HD == yes|D = 健康 ,已 = yes) 
DP (BP = 高 |HD = 7y)P (HD = y|D = 健康,E = yes) 
7 


0. 85 X 0. 25 ee 
O85 X02510.2xX0.75 05862 


而 此 人 不 患 心脏 病 的 概率 是 
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PCHD no | BP 高 ,D 健康 ,E == yes) 
1 一 P(HD = yes|BP = 高 ,D = 健康 ,E = yes) 
= 1—0.5862 = 0. 4138 
因此 模型 暗示 健康 的 饮食 和 有 规律 的 体育 锻炼 可 以 降低 患 心脏 病 的 危险 。 


5.4 贝 叶 斯 算法 源 程序 分 析 
朴素 贝 叶 斯 分 类 


//bys.cpp : 定义 控制 台 应 用 程序 的 入 口 点 


#/include "stdafx.h" 


#/include<iostream> 
#/include<fstream> 
#/include< string> 
#/include<vector> 
#/include<map> 
using namespace std; 


vector<string>split (const string& src,const stringg delimiter); 


// 根 据 定 界 符 分 离 字符 串 
void rejudge() // 重 新 判断 原 输 入 数据 的 类 别 
vector<vector<string>>vect; // 二 维 容器 
map< string, int>category; // 存 放 类 别 
map< string, double>pro_ map; // 存 放 各 种 概率 的 map 容器 
int main () 
{ 
string strLine; 
ifstream readfile ("weather.txt"); 
if(!readfile) // 打 开 文件 失败 ! 
‘ 
cout<<"Fail to open file weather!"<<endl; 
cout<<getchar (); 
return 0; 
} 
else 
下 
cout<<" 读 取 原 始 数据 如 下 :"<<endl; 
vector<vector<string>>::size type st x; // 二 维 容器 x 坐标 
vector<string>::size type st y; // 二 维 容 器 y 坐标 
vector<string>temp vect; 
while (getline (readfile, strLine)) // 一 行 一 行 读 取 数据 


cout<<strLine<<endl; 


temp vect=split (strLine,","); // 调 用 分 隔 函 数 分 隔 一 行 字符 串 
vect .push back (temp vect); // 插 入 二 维 容器 
temp_vect.clear (); // 清 空 容器 
} 
string temp string; // 临 时 字符 串 
vector<string> : :size type temp sizel=vect.size()-1; // 总 行 数 
vector<string>::size type temp_size2=vect[0].size(); // 总 列 数 


forl(st x=1;st x<temp sizel+1l;st x++) 
// 遍 历 二 维 容器 ,统计 各 种 类 别 、 属 性 | 类 别 的 个 数 ,以 便 后 面 的 
// 概 率 的 计算 ( 跳 过 第 一 行 的 属性 标题 ) 


forl(st y=0;st y<temp size2;st y++) 
if(st_y!=temp_size2-1) ”// 处 理 每 一 行 前 面 的 属性 ,统计 属性 | 类 别 的 个 数 
{ 
temp_string=vect[0] [st_y]+"="+vect[st x][st y]+"|"+ 
vect [0] [temp_size2-1]+"="+vect[st x] [temp size2-1]; 
pro map[temp_ string]++; // 计 数 加 1 
} 
else // 处 理 每 一 行 的 类 别 , 统 计 类 别 的 个 数 
{ 
temp string=vect[0] [temp_size2-1]+"="+vect[st x] [temp size2-1]; 
pro map[temp_string]++; // 计 数 加 1 
category[vect [st x] [temp size2-1]]=1; 
// 还 没有 类 别 , 则 加 入 新 的 类 别 
} 


temp_string.erase(); 


} 
string::size type st; 
cout<<" 统 计 过 程 如 下 :"<<endl; 
for (map< string,double> : :iterator it=pro map.begin();it!=pro map.end(); 
it++) // 计 算 条 件 概率 (属性 1 类 别 ) 
{ 
cout<<it->first<<":"<<it->second<<endl; 
if((st=it->first.find("|"))!=string::npos) 
{ 


it->second=it->second/pro map[it->first.substr (st+1)]; 


ls 
cout<<" 计 算 概 率 过 程 如 下 :"<<endl; 
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for (map< string, double>::iterator it2=pro_map.begin ();it2!=pro_map.end 
()7it2++) // 计 算 概率 (类 别 》 
{ 

if((st=it2->first.find("|"))==string::npos) 

{ 

pro map[it2->first]=pro map[it2->first]/(double) temp sizel; 
} 
cout<<it2->first<<":"<<it2->second<<endl; 


} 
//cout<<"play=no 


< (no/ (double)temp sizel)<<endl; 
//cout<<"play=yes:"<< (yes/ (double)temp sizel)<<endl; 


rejudge(); 


cout<<getchar(); 


return 0; 


} 


vector<string>split (const string& src,const string& delimiter) 


// 根 据 定 界 符 分 离 字符 串 


string::size type st; 
if(src.empty()) 
{ 
throw "Empty string!"; 
’ 
if(delimiter.empty()) 
{ 
throw "Empty delimiter!"; 
) 


Vector< string>vect; 


string::size type last st=0; 
while( (st=src.find first of(delimiter,last st))!=string::npos) 
{ 
if (st!=last _st) /1/2 个 标记 间 的 字符 串 为 一 个 子 字符 串 
\ 
vect .Push back(src.substr(last st,st-last st)); 
} 
last st=st+1; 
} 
if(last st!=src.size()) // 标 记 不 为 最 后 一 个 字符 
‘ 


vect.push back(src.substr (last st,string::npos)); 


return vect; 


} 
void rejudge() // 重 新 判断 原 输入 数据 的 类 别 
《 
string temp string; 
double temp pro; 
map< string, double> temp map; // 存 放 后 验 概率 的 临时 容器 
cout<< "经 过 简单 贝 叶 斯 算法 重新 分 类 的 结果 如 下 :"<<endl; 
for (vector<vector<string>>::size type st x=1;st x<vect.size();st x++) 


// 处 理 每 一 行 数据 


for (map< string, int> : :iterator it=category.begin();it!=category.end();it++) 


// 遍 历 类 别 , 取 出 p(xlcl) 和 p(xlc2) 等 的 概率 值 


temp pro=1.0; 

temp string=vect[0] [vect [0] .size()-1]+"="+it->first; 

temp pro* =pro map[temp string]; // 乘 上 p(ci) 
temp_string.erase () 7 

for (Vector< string> ::size type st y=0;st y<vect[st x].size();st y++) 


// 处 理 列 


if(it==category.begin()&&st y!=vect[st x] .size()-1) 


// 不 输出 原始 数据 已 有 的 类 别 , 使 用 预测 出 来 的 类 别 (只 输出 一 次 ) 


cout<<vect[st x] [st yj]<<""; 
} 
ifl(st y!=vect[st x].size()-1) 


// 乘 上 p (xil1cj), 跳 过 最 后 一 列 , 因 为 是 类 别 而 非 属性 


temp_string=vect[0] [st_y]+"= "+vect[st_x] [st_y]+"l"+vect[0] [vect 
f0] .size(}=1]+"="+it=>f£first? 
temp_pro* =pro map[temp string]; // 乘 上 p(xilcj) 


temp_string.erase(); 


} 
temp map[it->first]=temp pro; // 存 下 概率 
} 
/11111111/ 根 据 概率 最 大 判断 哪个 该 条 记录 应 属于 哪个 类 别 
string temp string2; 
temp pro=0; // 初 始 化 概率 为 0 
cout<< "后 验 概率 :"; 
for (map< string,double> : :iterator it2=temp map.begin();it2!=temp map.end 
() ;it2++) // 遍 历 容器 ,找到 后 验 概率 最 大 的 类 别 
{ 


cout<<it2->first<<":"<<it2->second<<" "7 
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{ 
temp string2.erase(); 
temp string2=it2->first; 
temp pro=it2->second; 

} 


i 
cout<<" 归 类 


<vect [0] [vect [0] .size()-1]<<" 


"<<temp xs 
出 该 条 记录 所 属 的 类 别 


ring2<<endl; 


于 果 如 图 5-5 所 示 


e.hunidity 


cast,cool,nor 
,nild,high 


(a) 


图 5-5 程序 运行 结果 


贝 叶 斯 分 类 算法 


(d) 


图 5-5 ( 续 ) 


上 面 的 程序 来 解决 这 样 一 个 分 类 问题 : 根据 天 气 状 况 来 判断 
某 天 是 否 适合 打 网 球 。 程 序 读 取 了 14 个 训练 实例 ,并 显示 出 来 ,如 图 5-5(a) 所 示 。 然 后 对 
训练 样本 数据 集 进行 扫描 ,统计 出 打 网 球 的 频数 为 9, 不 打 网 球 的 频数 为 5, 以 及 在 打 网 球 和 
不 打 网 球 两 类 条 件 下 ,各 种 天 气 状 况 出 现 的 频数 。 例 如 ,在 不 打 网 球 的 情况 下 湿度 较 高 的 频 
数 为 4, 并 利用 贝 叶 斯 公式 分 别 计算 其 概率 。 又 如 ,在 不 打 网 球 的 情况 下 湿度 正常 的 概率 为 
0.2, 如 图 5-5(b) 所 示 。 最 后 由 朴素 贝 叶 斯 算法 分 类 模型 VCX) 一 argmaxP(C)PCX|CD) 计 
算出 在 4 种 天 气 状况 的 共同 影响 下 是 否 应 该 去 打 网 球 , 如 图 5-5(c) 所 示 。 如 在 sunny hot 
high FALSE 的 情况 下 ,后 验 概率 为 no 二 0.0256,yes 二 0.006 584 36, 所 以 不 适宜 去 打 网 球 。 


s.5 贝 叶 斯 算法 特点 及 应 用 
5.5.1 朴素 贝 叶 斯 分 类 算法 


1. 朴素 贝 叶 斯 算法 特点 
朴素 贝 叶 斯 分 类 算法 有 诸多 优点 : 逻辑 简单 .易于 实现 .分 类 过 程 中 算法 的 时 间 空 间 
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开销 比较 小 ;算法 比较 稳定 、 分 类 性 能 对 于 具有 不 同 数据 特点 的 数据 集合 差别 不 大 , 即 具 
有 比较 好 的 健壮 性 等 优点 。 

尽管 在 实际 情况 中 难以 满足 朴素 贝 叶 斯 模型 的 属性 类 条 件 独 立 性 假定 ,但 它 分 类 预 
测 效果 在 大 多 数 情况 下 仍 比 较 精确 ,原因 有 以 下 几 个 : 要 估计 的 参数 比较 少 , 从 而 加 强 了 
估计 的 稳定 性 ;虽然 概率 估计 是 有 偏 的 ,但 人 们 大 多 关心 的 不 是 它 的 绝对 值 ,而 是 它 的 排 
列 次 序 ,因此 有 偏 的 概率 估计 在 某 些 情况 下 可 能 并 不 要 紧 ;现实 中 很 多 时 候 已 经 对 数据 进 
行 预 处 理 , 如 对 变量 进行 了 筛选 ,可 能 已 经 去 掉 了 高 度 相关 的 量 等 。 除 了 分 类 性 能 很 好 
外 , 贝 叶 斯 分 类 模型 还 具有 形式 简单 .可 扩展 性 很 强 和 可 理解 性 很 好 等 优点 。 

朴素 贝 叶 斯 分 类 器 的 缺点 是 属性 间 类 条 件 独 立 这 个 假定 ,而 很 多 实际 问题 中 这 个 独 
立 性 假设 并 不 成 立 ,如 果 在 属性 间 存 在 相关 性 的 实际 问题 中 忽视 这 一 点 ,就 会 导致 分 类 效 
果 下 降 。 

朴素 贝 叶 斯 分 类 模型 虽然 在 某 些 不 满足 独立 性 假设 的 情况 下 分 类 效果 仍 比 较 好 ,但 
是 大 量 研 究 表 明 可 以 通过 各 种 改进 方法 来 提高 朴素 贝 叶 斯 分 类 器 的 性 能 。 朴 素 贝 叶 斯 分 
类 器 的 改进 方法 主要 有 两 类 : 一 类 是 弱化 属性 的 类 条 件 独立 性 假设 ,在 朴素 贝 叶 斯 分 类 
器 的 基础 上 构建 属性 间 的 相关 性 ,如 构建 相关 性 量度 公式 ,增加 属性 间 可 能 存在 的 依赖 关 
系 ; 另 一 类 是 构建 新 的 样本 属性 集 ,期望 在 新 的 属性 集中 ,属性 间 存 在 较 好 的 类 条 件 独立 


2. 朴素 贝 叶 斯 算法 应 用 


(1) 贝 叶 斯 方法 在 中 医 证 候 和 症状 描述 中 的 应 用 。 

中 医 证 候 和 症状 描述 错综复杂 ,如 何 较 好 地 对 病 患 所 属 的 证 修 进行 鉴别 诊断 ,一 直 是 
临床 医疗 工作 者 的 首要 目标 ,把 数据 挖掘 技术 的 朴素 贝 叶 斯 分 类 方法 应 用 到 中 医 证 候 的 
诊断 识别 中 ,是 一 个 较 好 的 尝试 。 在 使 用 朴素 贝 叶 斯 分 类 方法 对 中 医 证 候 进行 分 类 识别 
并 用 遗传 算法 改进 时 ,经 历 了 以 下 过 程 : 首先 ,合理 抽象 鉴别 诊断 过 程 并 建立 数学 模型 ; 
其 次 ,提出 使 用 数据 挖掘 技术 中 的 朴素 贝 叶 斯 分 类 方法 对 模型 进行 求解 ;再 次 ,考虑 到 特 
征 数量 较 大 ,运用 遗传 算法 进行 特征 优化 ;最 后 ,使 用 医学 上 常用 的 ROC 曲线 评价 方法 
对 改进 前 后 的 分 类 识别 效率 进行 分 析 比 较 。 

(2) 贝 叶 斯 方法 在 玉米 叶 部 病害 图 像 识别 中 的 应 用 。 

在 图 像 分 割 和 特征 提取 的 基础 上 ,利用 朴素 贝 叶 斯 分 类 器 的 统计 学 习 方法 ,可 以 实现 
玉米 叶 部 病 斑 的 分 类 识别 。 贝 叶 斯 分 类 器 具有 网 络 结构 简单 、 易 于 扩展 等 特点 ,对 玉米 叶 
部 病害 的 分 类 识别 效果 较 好 ,也 为 其 他 作物 病害 图 像 识 别 的 研究 提供 了 借鉴 。 


5.5.2 贝 叶 斯 信念 网 


1. 贝 叶 斯 信念 网 特点 


(1) BBN 提供 了 一 种 用 图 形 模型 来 捕获 特定 领域 的 先 验 知识 的 方法 。 网 络 还 可 以 
用 来 对 变量 间 的 因果 依赖 关系 进行 编码 。 
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(2) 构造 网 络 可 能 既 费 时 又 费力 。 然 而 ,一 旦 网 络 结构 确定 下 来 ,添加 新 变量 就 十 分 
容易 了 。 

(3) 贝 叶 斯 网 络 很 适合 处 理 不 完整 的 数据 。 对 有 属性 遗漏 的 实例 可 以 通过 对 该 属性 
的 所 有 可 能 取 值 的 概率 求 和 或 求 积分 来 加 以 处 理 。 

(4) 因为 数据 和 先 验 知识 以 概率 的 方式 结合 起 来 了 ,所 以 该 方法 对 模型 的 过 分 拟 合 
问题 是 非常 鲁 棒 的 。 


2. 贝 叶 斯 信念 网 应 用 


(1) 基于 贝 叶 斯 信念 网 的 网 络 流量 分 类 与 识别 研究 。 网 络 流量 分 类 识别 技术 是 许多 
网 络 研究 和 应 用 领域 的 基础 ,但 随 着 动态 端口 .端口 伪装 和 信息 加 密 等 技术 的 使 用 ,传统 
的 纯 端 口 识别 法 已 不 再 有 效 ,用 基于 贝 叶 斯 信念 网 的 网 络 流量 分 类 方法 可 以 解决 这 个 问 
题 , 通 过 使 用 有 向 无 环 图 和 结 点 概率 表 , 可 以 解决 流 属 性 之 间 条 件 独立 的 问题 。 这 种 方法 
具有 稳定 可 靠 的 分 类 识别 效果 。 

(2) 贝 叶 斯 网 络 在 火灾 调查 中 的 应 用 。 火 灾 的 发 生 会 对 人 类 社会 和 人 类 生存 环境 造 
成 巨大 的 破坏 , 随 着 国家 科技 的 进步 和 经 济 的 发 展 , 火 灾 的 发 生 呈 现 出 多 元 化 发 展 的 趋 
势 。 火 灾 调 查 对 于 国家 和 社会 的 安全 稳定 、 同 类 灾害 的 防治 以 及 火灾 事故 原因 的 认定 等 
具有 重大 的 意义 。 由 于 在 火灾 调查 中 涉及 众多 的 不 确定 因素 , 贝 叶 斯 网 络 能 够 通过 数学 
概率 算法 从 不 确定 因素 以 及 信息 不 完全 的 因素 中 提取 确定 因素 和 信息 。 所 以 ,可 通过 贝 
叶 斯 网 络 研究 如 何 协 助 火灾 调查 人 员 在 众多 不 确定 的 火灾 因素 中 确定 关键 影响 因素 。 


思考 题 


1. 简 述 朴素 贝 叶 斯 分 类 的 工作 过 程 。 
2. 表 5-3 是 购买 汽车 的 顾客 分 类 训练 样本 集 。 假 设 顾客 的 属性 集 家 庭 经 济 状况 、 信 
用 级 别 和 月 收入 之 间 条 件 独立 , 则 对 于 某 顾客 (测试 样本 ) ,已 知 其 属性 集 X= 二 一般 , 优 
秀 ,12k 二 ,利用 朴素 贝 叶 斯 分 类 器 计算 这 位 顾客 购买 汽车 的 概率 。 
表 5-3 ”购买 汽车 的 顾客 训练 样本 集 


序 号 家 庭 经 济 状况 信用 级 别 月 收入 /元 购买 汽车 
1 一 般 优秀 10k 是 
2 好 优秀 12k 是 
3 一 般 优秀 6k 是 
4 一 般 良好 8. 5k 否 
5 一 般 良好 9k 和 否 
6 一 般 优秀 7. 5k 是 
7 好 一 般 22k 是 
8 一 般 9. 5k 否 
9 一 般 7k 是 
10 好 12. 5k 是 
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6.1 基本 概念 
6.1.1 生物 神经 元 模型 


人 的 神经 系统 是 由 众多 神经 元 相互 连接 而 成 的 一 个 复杂 系统 ,神经 元 又 称 神经 细胞 ， 
它 是 神经 组 织 的 基本 单位 。 如 图 6-1 所 示 ,神经 元 由 细胞 体 和 延伸 部 分 组 成 ,延伸 部 分 按 
功能 分 为 两 类 ,一 类 称 为 树 突 ,用 来 接收 来 自 其 他 神经 元 的 信息 ; 男 一 类 则 用 来 传递 和 输 
出 信息 , 称 为 轴 突 。 神 经 元 对 信息 的 接收 和 传递 都 是 通过 突 触 来 进行 的 。 单 个 神经 元 可 
以 从 别 的 神经 细胞 接收 多 达 上 千 个 的 突 触 输 入 ,前 一 个 神经 元 的 信息 经 由 其 轴 突 传 到 末 
梢 之 后 ,通过 突 触 对 后 面 的 各 个 神经 元 产生 影响 。 当 若干 突 触 输入 时 ,其 中 有 些 是 兴奋 性 
的 ,有 些 是 抑制 性 的 ,如 果 兴 奋 性 突 触 活动 强度 总 和 超过 抑制 性 突 触 活动 强度 总 和 ,使 得 
细胞 体内 电位 超过 某 一 阔 值 时 ,细胞 体 的 膜 就 会 发 生 单 发 性 的 尖峰 电位 ,这 一 尖峰 电位 将 
会 沿 着 轴 突 传播 到 四 周 与 其 相 联 系 的 神经 细胞 。 
[= 其 他 神经 元 的 轴 突 神经 末梢 


图 6-1 生物 神经 元 模型 


从 生物 控制 论 的 观点 来 看 ,神经 元 作为 控制 和 信息 处 理 的 基本 单元 ,具有 下 列 一 些 重 
要 的 功能 和 特性 : 

(1) 时 空 整合 功能 ; 

(2) 兴奋 与 抑制 状态 ; 

(3) 脉冲 与 电位 转换 ; 

(4) 神经 纤维 传导 速度 迅速 ; 

(5) 学 习 、 遗 忘 和 疲劳 。 
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6.1.2 人 工 神经 元 模型 


人 们 通过 研究 发 现 , 大 脑 之 所 以 能 够 处 理 极其 复杂 的 分 析 、 推 理工 作 ,一 方面 是 因为 
其 神经 元 个 数 庞 大 , 另 一 方面 还 在 于 神经 元 能 够 对 输入 信和 号 进行 非 线 性 处 理 。 人 工 神 经 
元 模型 就 是 用 人 工 方法 模拟 生物 神经 元 而 形成 的 模型 ,是 对 生物 神经 元 的 抽象 .模拟 与 简 
化 , 它 是 一 个 多 输入 . 单 输出 的 非 线性 元 件 ,单个 神经 元 是 前 向 型 的 。 将 人 工 神经 元 的 基 
本 模型 和 激励 函数 合 在 一 起 构成 的 人 工 神经 元 ,就 是 著名 的 McCulloch-Pitts 模型 ,简称 
为 M-P 模型 。 

图 6-2 表明 ,人 工 神经 元 具有 许多 输入 信号 ,针对 每 个 输入 都 有 一 个 加 权 系 数 wi 称 
为 权 值 C(weights) , 权 值 的 正 负 模 拟 了 生物 神经 元 中 突 触 的 兴奋 和 抑制 ,其 大 小 则 代表 了 
突 触 的 不 同 连接 强度 ,而 中 间 的 神经 元 对 所 有 的 输入 信号 进行 计算 处 理 , 然 后 将 结果 输 
出 。 在 神经 元 中 ,对 信号 进行 处 理 采用 的 是 数学 孔 数 ,通常 称 为 激活 也 数 、 激 励 函 数 或 挤 
压 函 数 ,其 输入 输出 关系 可 描述 为 


=/f( De —0) 


y= f(u) 


(6-1) 


xo=1 


图 6-2 ”人工 神经 元 模型 


式 中 zi(i 二 1,2,…,n) 是 从 其 他 神经 元 传 来 的 输入 信号 ;0; 是 该 神经 元 的 阔 值 :ww 表示 从 
神经 元 i 到 神经 元 j 的 连接 权 值 ;f(，。) 为 激活 函数 或 挤 压 函 数 。 由 于 神经 元 采用 了 不 同 
的 激活 函数 ,使 得 神经 元 具有 不 同 的 信息 处 理 特性 ,而 神经 元 的 信息 处 理 特性 是 决定 神经 
网 络 整 体 性 能 的 主要 因素 之 一 .因此 激活 函数 具有 重要 的 意义 。 下 面 介 绍 4 种 常用 的 激 
活 函 数 形 式 。 

(1) 阅 值 型 函数 , 即 f(z) 为 阶 跃 函 数 。 

1，Zz 二 0 
f(z)= i (6-2) 

具有 这 一 作用 方式 的 神经 元 称 为 闵 值 型 神经 元 ,是 神经 元 模型 中 最 简单 的 一 种 ,经 典 
的 M-P 模型 神经 元 就 属于 这 一 类 。 

(2) 分 段 线性 函数 。 此 函数 的 特点 是 : 神经 元 的 输入 与 输出 在 一 定 区 间 内 满足 线性 
关系 。 这 类 函数 也 称 为 伪 线 性 函数 ,表达 式 如 下 : 
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0,， rz0 
f(z)= 47, 0<r<r (6-3) 
Dy 
(3) Sigmoid 函数 。Sigmoid 函数 也 称 S 型 函数 ,通常 是 在 (0,1) 或 (一 1,1) 内 连续 取 
值 的 单调 可 微分 函数 。 它 是 一 类 非常 重要 的 激活 函数 ,无 论 神经 网 络 用 于 分 类 、 函 数 副 近 
或 优化 ,Sigmoid 函数 都 是 常用 的 激活 函数 。 常 用 指数 或 正切 等 一 类 曲线 表示 。 


f(r)= 


I es 
ITer 或 f(TITes 
其 中 4 又 称 为 Sigmoid 函数 的 增益 ,其 值 决定 了 函数 非 饱 和 有 段 的 斜率 ,4 越 大 ,曲线 就 
越 陡 。 

(4) 高 斯 函数 。 高 斯 函数 (也 称 钟 型 函数 ) 也 是 极为 重要 的 一 类 激活 函数 ,常用 于 径 
向 基 神 经 网 络 (RBF 网 络 ) ,其 表达 式 为 

f(x)= 营 (6-5) 

式 中 8 称 为 高 斯 函数 的 宽度 或 扩展 常数 。 53 越 大 ,函数 曲线 就 越 平坦 ;反之 ,9 越 小 ,函数 
曲线 就 越 陡 峭 。 


(6-4) 


6.1.3 主要 的 神经 网 络 模型 


人 工 神经 网 络 是 由 大 量 的 神经 元 按照 大 规模 并 行 的 方式 通过 一 定 的 拓扑 结构 连接 而 
成 的 。 神 经 元 只 是 单个 的 处 理 单元 ,并 不 能 实现 复杂 的 功能 ,只 有 大 量 神 经 元 组 成 庞大 的 
神经 网 络 ,才能 实现 对 复杂 信息 的 处 理 与 存储 ,并 表现 出 各 种 优越 的 特性 。 因 此 必须 按 一 
定 的 规则 将 神经 元 连接 成 神经 网 络 ,并 使 网 络 中 各 神经 元 的 连接 权 按 一 定 的 规则 变化 ,这 
样 一 来 也 就 产生 了 各 式 各 样 的 神经 网 络 模型 。 到 目前 为 止 ,学 术 界 的 研究 人 员 已 经 提出 
了 近 六 十 种 神经 网 络 模型 ,我们 可 以 按 下 述 几 个 方面 对 其 进行 分 类 : 

(1) 按 神经 网 络 的 拓扑 结构 可 以 分 为 反馈 神经 网 络 模型 和 前 向 神经 网 络 模型 ; 

(2) 按 神经 网 络 模型 的 性 能 可 分 为 连续 型 与 离散 型 神经 网 络 模 型 ,确定 型 与 随机 型 
神经 网 络 模型 ; 

(3) 按 学 习 方式 可 以 分 为 有 教师 学 习 和 无 教师 学 习 神经 网 络 模型 ; 

(4) 按 连 接 突 触 的 性 质 可 分 为 一 阶 线性 关联 和 高 阶 非 线性 关联 神经 网 络 模型 。 

目前 的 使 用 中 比较 典型 的 一 些 神经 网 络 模型 主要 有 以 下 几 类 

(1) 误差 后 向 传播 (BP) 神 经 网 络 。 

BP 神经 网 络 是 前 馈 网 络 中 最 具 代 表 性 的 网 络 类 型 。 该 类 神经 网 络 模 型 是 一 种 多 层 
映射 神经 网 络 ,采用 的 是 最 小 均 方 差 的 学 习 方式 ,是 目前 使 用 最 广泛 的 神经 网 络 模型 之 
一 。 多 层 感 知 网 络 是 一 种 具有 三 层 或 三 层 以 上 的 阶层 型 神经 网 络 。 典 型 的 多 层 感知 网 络 
是 三 层 . 前 馈 的 阶层 网 络 , 即 输入 层 、 隐 含 层 (也 称 中 间 层 )、 输 出 层 。 相 邻 层 之 间 的 各 神经 
元 实现 全 连接 , 即 下 一 层 的 每 一 个 神经 元 与 上 一 层 的 每 个 神经 元 都 实现 全 连接 ,而 且 每 层 
各 神经 元 之 间 无 连接 。 
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(2) 径 向 基 函 数 神 经 网 络 (Radial Basis Function Neural Network) 。 

除 BP 神经 网 络 以 外 , 径 向 基 函 数 神经 网 络 也 是 一 类 常用 的 前 馈 网 络 。 一 般 情况 下 ， 
RBF 网 络 采用 三 层 结构 , 层 间 的 神经 元 连接 方式 与 BP 网 络 类 似 ,也 采用 层 间 全 连接 、 层 
内 无 连接 方式 。 与 BP 神经 网 络 最 大 的 不 同 之 处 在 于 ,RBF 网 络 的 隐 节 点 的 基 函 数 采 
距离 函数 (如 欧 氏 距离 ), 并 使 用 径 向 基 函 数 ( 如 高 斯 函数 ) 作 为 激活 函数 。 

(3) Hopfield 网 络 。 

Hopfield 网 络 作为 一 种 单 层 对 称 全 反馈 神经 网 络 , 使 用 与 层次 型 神经 网 络 不 同 的 结 
构 特 征 和 学 习 方 法 ,模拟 生物 神经 网 络 的 记忆 机 理 , 获 得 了 令 人 满意 的 结果 。 它 是 由 相同 
的 神经 元 构成 的 单 层 .并且 不 具有 学 习 功 能 的 自 联 想 网 络 。 网 络 的 权 值 按 一 定 的 规则 计 
算出 来 ,一 经 确定 就 不 再 改变 ,而 网 络 中 各 神经 元 的 状态 在 运行 过 程 中 不 断 更 新 ,网 络 演 
变 到 稳 态 时 各 神经 元 的 状态 便 是 问题 之 解 。 

Hopfield 网 络 有 离散 型 和 连续 型 两 种 。 其 中 离散 型 的 激活 函数 为 二 值 型 的 , 其 输入 
输出 为 {0,1) 的 反馈 网 络 ,主要 用 于 联想 记忆 。 而 连续 型 Hopfield 网 络 的 激活 函数 的 输 
入 与 输出 之 间 的 关系 为 连续 可 微 的 单调 上 升 函 数 , 主 要 用 于 优化 计算 。 

(4) 随机 型 神经 网 络 。 

在 BP 算法 和 Hopfield 算法 中 ,导致 网 络 学 习 过 程 陷 入 局 部 极 小 值 的 原因 主要 有 


QO@ 网 络 结构 上 存在 着 输入 与 输出 之 间 的 非 线 性 函数 关系 ,从 而 使 网 络 误差 和 能 量 函 
数 所 构成 的 空间 是 一 个 含有 多 极点 的 非 线 性 空间 ; 

@ 网 络 误差 和 能 量 函 数 只 能 按 单方 面 减 小 而 不 能 有 丝毫 的 上 升 趋势 。 

随机 型 神经 网 络 从 解决 网 络 收敛 问题 的 第 (2) 点 原因 入 手 , 其 基本 思想 是 : 不 但 让 网 
络 的 误差 和 能 量 函 数 向 减 小 的 方向 变化 ,而 且 还 可 按 某 种 方式 向 增 大 的 方向 变化 ,目的 是 
使 网 络 有 可 能 跳出 局 部 极 小 值 而 向 全 局 最 小 点 收敛 。 随 机 型 神经 网 络 的 典型 算法 是 模拟 
退火 算法 。 

(5) Kohonen 网 络 。 

Kohonen 网 络 的 构想 来 源 于 人 的 视网膜 及 大 脑 皮层 对 刺激 的 反应 机 理 。 对 于 某 一 
个 输入 模式 ,通过 竞争 在 输出 层 中 只 激活 一 个 相应 的 输出 神经 元 。 模 式 在 输出 层 中 将 激 
活 许 多 个 神经 元 ,从 而 形成 一 个 反映 输入 数据 的 许多 输入 特征 图 形 。 

Kohonen 网 络 含 有 两 层 ,输入 缓冲 层 用 于 接收 输入 模式 ,输出 层 的 神经 元 一 般 按 正 
则 二 维 阵列 排列 ,每 个 输出 神经 元 连接 至 所 有 输入 神经 元 。 连 接 权 值 形成 与 已 知 输出 神 
经 元 相连 的 参考 矢量 的 分 量 。Kohonen 网 络 是 一 种 以 无 导师 方式 进行 网 络 训练 的 网 络 。 
它 通过 自身 训练 ,自动 对 输入 模式 进行 分 类 。 

(6) 玻 耳 效 曼 机 。 

玻 耳 效 曼 机 由 Hinton 等 人 提出 , 它 的 思想 主要 来 源 于 统计 物理 学 。 在 统计 物理 学 
,经 常 基于 能 量 来 考虑 状态 的 转移 .状态 向 着 能 量 最 小 的 方向 转移 ,在 状态 转移 的 过 程 
,由 于 热 骚动 引起 系统 的 不 稳定 。 统 计 物理 学 中 的 玻 耳 效 曼 分 布 指出 : 能 量 越 小 的 状 
,发 生 的 概率 就 越 大 , 即 系统 趋向 于 能 量 最 小 的 状态 。 而 神经 网 络 中 的 玻 耳 效 曼 机 就 是 
用 这 种 分 布 寻 求 最 优 解 的 。 玻 耳 效 曼 机 本 质 上 是 建立 在 Hopfield 网 络 基 础 上 的 ,具有 


兰 济 于 于 
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学 习 能 力 , 能 够 通过 一 个 模拟 退火 过 程 寻求 解答 。 

(7) 对 向 传播 神经 网 络 。 

对 向 传播 (Counter-Propagation) 神经 网 络 (CP 网 络 ), 是 美国 神经 计算 机 专家 
Robert Hecht-Nielsen 于 1987 年 提出 的 。 它 是 将 Kohonen 特征 映射 网 络 与 Grossberg 
基本 竞争 型 网 络 巧 妙 结合 的 一 种 新 型 特征 映射 网 络 。 实 际 上 ,CP 网 络 就 是 用 无 导师 学 
习 来 解决 网 络 隐 含 层 的 理想 输出 未 知 的 问题 ,用 有 导师 学 习 解决 输出 层 按 系统 要 求 给 出 
指定 输出 的 问题 。 这 一 网 络 被 有 效 地 应 用 于 模式 分 类 、 函 数 近 似 统计 分 析 和 数据 压缩 等 
领域 。 


6.2 BP 算法 原理 
6.2.1 Delta 学 习 规 则 的 基本 原理 


Delta 学 习 规 则 又 称 为 梯度 法 或 最 速 下 降 法 ,其 要 点 是 改变 单元 间 的 连接 权重 来 减 小 
系统 实际 输出 与 期 望 输出 间 的 误差 。Delta 学 习 规则 是 最 常用 的 神经 网 络 学 习 算 法 ,主要 
应 用 在 误差 纠正 学 习 过 程 中 , 它 也 是 一 种 有 导师 学 习 算法 。 

假定 神经 元 权 值 修正 的 目标 是 极 小 化 标量 函数 FF(w), 其 中 下 (。) 函 数 代表 神经 网 
络 的 误差 目标 函数 ,w 代表 神经 网 络 中 的 某 一 连接 权 值 。 如 果 神 经 元 的 当前 权 值 为 
ww(1) ,并 且 假设 下 一 时 刻 的 权 值 调节 公式 为 


w(t+1)= w(t)+ Aw(t) (6-6) 
式 中 ,Aw(t) 表 示 当 前 时 刻 的 权 值 修正 方向 。 显 然 , 我 们 期 望 每 次 权 值 修正 都 能 满足 
F[w(t++1)]< FLw(t)] (6-7) 


这 样 神经 网 络 输 出 的 误差 才 会 随 着 训练 过 程 的 进行 而 不 断 地 向 最 小 化 的 目标 靠近 。 对 
F[w(t 十 1)] 进 行 一 阶 泰勒 公式 展开 ,得 


F[w(t+t+1)]= FLw()+ Aw(t) J FLw(t)+ g(t)Aw(t)] (6-8) 
式 中 ,g7() 二 VF[w(t)]|w-weiy : 即 F(w) 在 w= 二 w(t) 时 的 梯度 矢量 。 显然, 如 果 取 
Aw(t)=— cg (1) (6-9) 


式 中 ,c 取 较 小 的 正 数 ( 称 为 学 习 率 ), 即 权 值 修正 量 沿 网 络 误差 曲面 的 负 梯 度 方向 取 较 小 
值 , 则 式 (6-8) 的 右边 第 二 项 必然 小 于 零 , 式 (6-7) 必 然 满足 。 这 就 是 Delta 学 习 规 则 的 基 
本 原理 。 


6.2.2 BP 网 络 的 结构 


BP 神经 网 络 是 具有 三 层 或 三 层 以 上 的 阶层 型 神经 网 络 , 由 输入 层 、 隐 含 层 和 输出 层 
构成 , 相 邻 层 之 间 的 神经 元 全 互 连 , 同 一 层 内 的 神经 元 无 连接 ,下 面 以 如 图 6-3 所 示 的 具 
有 一 个 隐 含 层 的 三 层 BP 网 络 来 介绍 BP 算法 的 实现 。 

图 6-3 中 ,假设 输入 层 、 隐 含 层 和 输出 层 的 单元 数 分 别 是 IT.J 和 下 ,输入 为 
(zoom ,X11), 隐 舍 层 输出 为 (hos 有 ,hs,…,hj-1), 网络 实际 输出 为 (yo, i， 
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输入 层 节点 i 隐 含 层 节点 / 输出 层 节 点 k 
图 6-3 三 层 BP 神经 网 络 结构 示意 图 


D2 syk-1)，(do,di,ds，… ,dk-1) 表 示 训 练 样本 的 期 望 输出 。 输 入 层 单元 i 到 隐 含 层 单 
元 7 的 权 值 为 wz , 隐 含 层 单元 j 到 输出 层 单元 k 的 权 值 为 wi ,用 0; 和 0 来 分 别 表 示 隐 含 
层 单元 和 输出 层 单元 的 阔 值 。 

于 是 ,该 网 络 隐 含 层 单元 的 输出 值 为 


= 
b=f(2) vr —0) (6-10) 
输出 层 各 单元 的 输出 值 为 
于 3 
yk = f(ywnhj —A) (6-11) 


6.2.3 ”BP 网 络 的 算法 描述 


BP 算法 的 主要 思想 是 从 后 向 前 ( 反 向 ) 逐 层 传播 输出 层 的 误差 ,以 间接 算出 隐 层 误 
差 。 算 法 分 为 两 个 阶段 : 第 一 阶段 ( 正 向 传播 过 程 ) 输 入 信息 从 输入 层 经 隐 层 逐 层 计算 各 
单元 的 输出 值 ; 第 二 阶段 ( 反 向 传播 过 程 ) 输 出 误差 逐 层 向 前 算出 隐 层 各 单元 的 误差 ,并 
此 误差 修正 前 层 权 值 。 其 中 的 网 络 权 值 调整 采用 Delta 学 习 规 则 , 即 根据 梯度 法 沿 着 误 
差 曲面 的 梯度 最 速 下 降 , 从 而 实现 网 络 误差 的 最 小 化 。 


1. 正 向 计算 输出 阶段 


以 如 图 6-3 所 示 的 BP 神经 网 络 为 例 , 假 设 BP 网 络 的 输入 层 节点 数 为 二 , 隐 含 层 节点 
数 为 J ,输出 层 节点 数 为 多 。 输 入 向 量 为 X? 二 (zo ,zi ,zs，… zi) ,其 期 望 输出 向 量 为 
D2 一 (do,d ,ddr-i), 则 有 : 

(1) 输入 层 : 


O: = zisi=0,1,2,.,1—1。 (6-12) 
(2) 隐 含 层 : 为 简化 推导 ,把 各 点 的 阔 值 当 作 一 种 特殊 的 连接 权 值 ,其 对 应 的 输入 恒 
为 一 1。 对 于 第 j 个 神经 元 的 输入 为 
ne = >》)vsO:， 其 中 Oi 一 一 1.v 为 阔 值 。 (6-13) 
其 第 7 个 节点 的 输出 为 


127 


算法 原理 与 实现 》 


O; = f(net), j=0,1,2,…,J—1 (6-14) 
(3) 输出 层 : 同 理 ,对 于 第 个 神经 元 的 输入 为 
J 
nett 一 2》)wxO;， 其 中 Oj = 一 1、wy, 为 阔 值 。 (6-15) 
其 第 个 节点 的 输出 为 
O:= f(net), k=0,1,2,…,K—1 (6-16) 
定义 BP 网 络 的 能 量 函 数 ( 误 差 函 数 ) 为 
| 
L a 
Ez (df — OF)? (6-17) 
则 N 个 样本 的 总 误差 为 
1 N=-1 K 一 1 
三 | 2 各 
Es = 5 名 名 (df — Of) (6-18) 


式 中 ,E, 一 一 p 的 输出 误差 ; 
df 一 一 样本 p 的 期 望 输出 ; 
0 一 一 输出 层 神经 元 的 实际 输出 。 


2. 误差 反 向 传播 阶段 


通过 调整 权 值 和 阔 值 ,使 得 误差 能 量 达到 最 小 时 ,网 络 趋 于 稳定 状态 ,学习 结束 。 求 
解 无 约束 最 优化 方程 式 (6-17) 的 常用 方法 有 : 拟 牛 顿 迭 代 法 、 最 佳 梯 度 下 降 法 等 。 但 前 
两 种 方法 涉及 和 矩阵 求 逆 ,其 计算 量 大 ,因此 我 们 采用 后 一 种 方法 来 调整 权 值 。 

1) 输出 层 与 隐 含 层 之 间 的 权 值 调整 

对 每 一 个 wx 的 修正 值 为 


-PE .9 .dnet _ 
Awxa 一 dag = ?5net EE (6-19) 
式 中 ,7 为 学 习 步 长 , 取 值 区 间 为 (0,1) 。 
对 式 (6-15) 求 偏 导 得 
9netk 
一 一 上 一 -20 
goa OO (6-20) 
。 __9FE 
记 2 一 et 
则 有 
aE aE 3O， 本 _ 
小 Dnetk 9O: anetk (di — OF Cnet) Chay 
将 式 (6-20) . 式 (6-21) 代 入 式 (6-19) 中 得 
aE 9EF Anet, _ a 
A 3 有 640; (6-22) 
2) 隐 含 层 与 输入 层 的 权 值 调整 
同 理 ,对 每 一 个 vi 的 调整 值 为 
oFE aE gone _ /_ 9E - a 
Avs Wm 7 gnet; Agvs ( je )0 BO: Ry 
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__9E __9E. 30, 
其 中 ,一 Anet; 90; qnet; 
再 由 
天 一 1 天 一 1 
aF 9grl 2 9O: anetx 
50 元 [ zd 0 ] 0 0 
KR Kl 
=D) (di — OF neti wn = Pow (6-24) 
咎 i 
得 
天 一 1 
6 = f (net) > guo (6-25) 
k=0 


综 上 所 述 , 若 BP 神经 网 络 每 一 层 的 激活 函数 均 取 单 极 S 型 函数 , 即 


Cnet ) 一 (6-26) 


一 1 
1 十 er 
则 可 以 方便 地 计算 出 该 网 络 各 层 的 权 值 修正 量 。 
(1) 对 于 输出 层 。 
Awa = yO; (di — Of’ (nets)= 7y0; (di — O01)0(1— 0,) (6-27) 
(2) 对 于 隐 含 层 。 


天 一 1 天 一 1 
Avy = 7° f (net) > orox。O = 70;(1— 0)) dora * O; (6-28) 
k=0 k=0 


6.2.4 标准 BP 网 络 的 工作 过 程 


BP 神经 网 络 的 工作 过 程 通常 由 两 个 阶段 组 成 : 在 第 一 个 阶段 ,神经 网 络 各 节点 的 连 
接 权 值 固 定 不 变 ,网 络 的 计算 从 输入 层 开 始 , 逐 层 逐 个 节点 地 计算 每 一 个 节点 的 输出 , 计 
算 完毕 后 ,进入 第 二 个 阶段 , 即 学 习 阶段 。 在 学 习 阶 段 ,各 节点 的 输出 保持 不 变 , 网 络 学 习 
从 输出 层 开始 , 反 向 逐 层 逐 个 节点 地 计算 各 连接 权 值 的 修改 量 , 以 修改 各 连接 的 权 值 , 直 
到 输入 层 为 止 。 这 两 个 阶段 称 为 正 向 传播 和 反 向 传播 过 程 ,在 正 向 传播 中 ,如 果 在 输出 层 
的 网 络 输出 与 期 望 输出 相差 较 大 , 则 开始 反 向 传播 过 程 ,根据 网 络 输出 与 所 期 望 输出 的 信 
号 误差 ,对 网 络 节点 间 的 各 连接 权 值 进行 修改 ,以 此 来 减 小 网 络 实际 输出 与 所 期 望 输出 的 
误差 。BP 网 络 正 是 通过 这 样 不 断 进行 的 正 向 传播 和 反 向 传播 计算 过 程 ,最 终 使 得 网 络 输 
出 层 的 输出 值 与 期 望 值 趋 于 一 致 。 

BP 神经 网 络 的 总 体 步 骤 大 致 如 下 所 示 。 

(1) 权 值 初始 化 : zw 三 Random(。) .wx 二 Random(。), 其 中 wi 表示 网 络 输入 层 
单元 到 隐 含 层 单元 的 连接 权 值 ;wi 表示 网 络 隐 含 层 单元 到 输出 层 单元 的 连接 权 值 。 

(2) 依次 输入 书 个 学 习 样本 。 设 当前 输入 为 第 之 个 样本 。 

(3) 依次 计算 各 层 的 输出 : O;、O; 其 中 O; 为 隐 含 屋 上 第 j 个 神经 元 的 输出 ,0 为 输 
出 层 上 第 & 个 神经 元 的 输出 。 

(4) 根据 式 (6-21)、 式 (6-25) , 求 网 络 各 层 的 反 传 误差 。 

6: = (di — Oi.)f’ (nets) (6-29) 
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天 一 1 
6; = f (net) >) orwn (6-30) 
并 记 下 各 个 OF?”、Of?*” 的 值 。 
(5) 记录 已 经 学 习 过 的 样本 个 数 p。 如 果 p 二 P, 就 转 到 步骤 (2) 继 续 计 算 ; 如 果 2 三 
P, 则 转 到 步骤 (6)。 
(6) 按 权 值 修正 公式 修正 各 层 的 权 值 和 阔 值 。 
aa | 
(7) 按 新 的 权 值 再 计算 Of?”、Of?? 和 Eg = 让 > >) (de 一 Of)’, 车 对 每 个 p 样 本 


和 相应 的 第 个 输出 神经 元 ,都 满足 |dr*?” 一 Of*”| 过 e, 或 达到 最 大 学 习 次 数 , 则 终止 学 
习 ; 否 则 转 到 步骤 (2) 继 续 新 一 轮 的 网 络 学 习 。 

为 形象 起 见 ,我 们 将 标准 BP 算法 的 整个 过 程 连贯 起 来 ,得 到 以 下 的 BP 网 络 学 习 算 
法 流程 如 图 6-4 所 示 。 


开始 


网 络 权 值 初始 化 


输入 训练 样本 数 


读 取 第 一 个 样本 


计算 网 络 输出 


计算 网 络 各 层 误差 否 


读 取 下 一 个 样本 


计算 网 络 输 出 


误差 满足 要 求 或 
到 达 最 大 次 数 


图 6-4 ”BP 网 络 学 习 算法 流程 图 


6.3 ”BP 算法 实例 分 析 


【 例 6.1】 采用 BP 网 络 映射 得 到 如 图 6-5 所 示 的 曲线 规律 。 
设计 单 隐 层 1-4-1 BP 网 络 结构 如 图 6-6 所 示 。 
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人 工 神经 网 络 算 ; 


图 6-6 ”BP 网 络 结构 


权 系数 随机 选取 为 ws 一 0. 2,ruls 一 0. 3,ruk 一 0.4,rus 一 0.5,rux 一 0.5,russ 一 0.2， 
we =0. 1 ,us 一 0.4。 

取 学 习 率 ?一 1。 按 图 6-5 中 曲线 确定 学 习 样本 数据 如 表 6-1( 每 0. 05 取 一 学 习 数 
据 , 共 80 对 ) 所 示 。 


表 6-1 学 习 样 本 
x( 输 入 信号 ) 。 | 。 y( 教 师 信号 ) x( 输 入 信号 ) | “(教师 信号 ) 
0.0000 | 0.5000 5 3.0000 | 0.0000 
1.0000 1.0000 = 4.0000 0.5000 


按 表 中 的 数据 开始 进行 学 习 。 
第 一 次 学 习 , 输 入 zi 二 0.0000(1 节点 第 1 次 学 习 ),di 二 0.5000, 计 算 2、3、4、5 单元 


状态 net;。 
neti=wir! = * 0.0000=0. 0000,i=2,3,4,5 
计算 2、3、4、5 各 隐 层 单元 输出 yi (i 二 2,3.,4,5)。 
HW =fnet)=1/(l+e™)=0.5 
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计算 输出 层 单元 6 的 状态 值 nets 及 输出 值 站。 


0.5 
0.5 

nete = WI:= [GE 0 “01 04] wel = = 
bk 
0.5 

R=1/(+te"™)=1/(+e") 一 0.6457 


反 推 确定 第 二 层 权 系数 变化 。 
6% = yl(d} —y)(1—y) 一 0.6457(0.5 一 0.6457)(1 一 0.6457) 0. 0333 
ws = wh 十 6%Y i= 2,3,4,5 

第 一 次 反 传 修正 的 输出 层 权 为 


0.5 0.5 0. 4833 

0.2 0.5 0.1833 
We = 十 1。( 一 0.0333) 一 

0. 1 0.5 0.0833 

0.4 0. 5 0. 3833. 


反 推 第 一 层 权 系数 修正 。 
Oi = wy (1l— yl), i=2,3,4,5 
wi = whi + nlx 
Wi= [0.2 0.3 0.4 0.5]° 
第 二 次 学 习 ,x? 二 0.0500,d? = 二 0. 5250 
net; = wuxis i= 2,3,4,5 
六 = 1/[1 十 em 人] = 1/[1 十 erezxoosm)] 一 0.5025 
= 1/[1 十 eemea] = 1/[1+e Ys ] 一 0.5037 
罚 一 1/[1 十 eeeooso)] = 0.5050 
3 = 0.5062 
计算 6 单元 状态 nets 。 


0. 5025 


0.5037 
nete = WIY,; = [0.4833 0.1833 0.0833 0.3833] 一 0.5713 
0. 5050 


0. 5062 


六 = Fnete) 一 1/(1 十 esns) 一 0.6390 
按 表 中 的 数据 依次 训练 学 习 , 学 习 次 数 足 够 高 时 ,可 达到 学 习 目的 ,实现 权 值 成 熟 。 
【 例 6.2】 如 图 6-7 所 示 是 一 个 单 隐 层 3-2-1 BP 网 络 。 
学 习 样 本 ,初始 各 层 权 系数 、 闵 值 如 图 6-8 所 示 。 
计算 各 隐 含 层 以 及 输出 层 的 输入 ,输出 值 ,如 图 6-9 所 示 。 
反 推 各 层 系 数 修正 ,如 图 6-10 所 示 。 
经 过 第 一 次 学 习 得 到 的 新 的 权 系数 和 闽 值 如 图 6-11 所 示 。 
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图 6-7 BP 网络 


Xl 


Wis | Wa4 


0; 
0 


图 6-8 初始 值 
节点 网 络 输入 值 输出 值 
区 0.2+0-0.5-0.4=-0.7 1(1+e07)=0.332 
[Es -0.3+0+0.2+0.2=0.1 1(1+e-™!)=0.525 
| s (-0.3)(0.332)-(0.2)(0.525) + 0.1 = -0.105 1/(1+e®105)=0.474 
图 6-9 各 隐 含 层 以 及 输出 层 的 输入 ,输出 值 
节点 权 系数 变化 
6 (0.474)(1-0.474)(1-0.474)= 0.1311 
5 (0.525)(1-0.525)(0.1311)(-0.2) = -0.0065 
4 (0.332)(1-0.332)(0.1311)(-0.3) = -0.0087 
图 6-10 各 层 系数 修正 
权 系 数 和 国 值 新 的 值 
Wi -0.3+(0.9)(0.1311)(0.332)=-0.261 
wse -0.2+(0.9)(0.1311)(0.525)=-0.138 
Wia 0.2+(0.9)(-0.0087)(1)=0.192 
Wis —0.3+(0.9)(—0.0065X(1)=-0.306 
wag 0.4+(0.9)(-0.0087)(0) = 0.4 
Was 0.1+(0.9)(-0.0065)(0) = 0.1 
Ta 一 0.5+(0.9)(-0.0087)(D)=-0.508 
Wis 0.2+(0.9)(-0.0065)(1) = 0.194 
65 0.1+(0.9)(0.1311)=0.218 
6 0.2+(0.9)(—0.0065)=0.194 
0, —0.4+(0.9)(-0.0087)=—0.408 


图 6-11 


新 的 权 系数 和 效 值 


133 


6.4 ”BP 算法 源 程序 分 析 
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#include<iostream.h> 
指 nclude<math .h> 
#include<stdlib .h> 
#include<time .h> 


#include<fstream.h> 


#define RANDOM rand () /32767.0 


const int Layer Max=5; 


const double PI=3.1415927; 


Const int Layer number [Layer Max]={2,4,4,2,1}; 


const int Neural Max=4; 


const int InMax=21; 


ofstream Out W File("All W.txt",ios::out); 


ofstream Out Error("Error.txt",ios: :out); 


// 定 义 类 BP 

class BP 

{ 

public: 

BP(); 

void BP Print(); 

double F (double x); 

double Y (double x]1, double x2); 


double NetWorkOut (int x1, int x2) 7 


void AllLayer D(int x1, int x2) 7 


void Change W(); 


void Train(); 


void After Train Out(); 


double Cost (double out, double Exp); 


private: 


double W[Layer Max] [Neural Max] [Neural Max]; 


//0~1 随机 数 生成 函数 


// 神 经 网 络 的 层 数 

// 圆 周 率 

// 神 经 网 络 各 层 的 神经 元 个 数 

// 神 经 网 络 各 层 的 最 大 神经 元 个 数 
// 样 本 输入 的 个 数 


//BP 类 的 构造 函数 
// 打 印 权 系 数 

// 神 经 元 的 激发 函数 
// 要 逼近 的 函数 


// 网 络 输出 , 它 的 输入 为 

// 第 input 个 样本 

// 求 所 有 神经 元 的 输出 误差 微分 
// 改 变 权 系数 


// 训 练 函数 


// 经 过 训练 后 ,21 个 样本 的 神经 网 络 输出 


// 代 价 函数 


// 保 存 权 系数 


// 规 定 W[i] [j] [k] 表 示 网 络 第 大 层 第 j 个 神经 元 连接 到 


// 第 i-1 层 第 k 个 神经 元 的 权 系 数 


double Input Net [2] [InMax]; 


//21 个 样本 输入 ,约定 Input Net[0] [i] 
// 表 示 第 i 个 样本 的 输入 xl 


// 而 Input_Net [1] [i] 表 示 第 i 个 样本 的 输入 x2 


double Out Exp[InMax] [InMax]; // 期 望 输出 


double Layer Node[Layer Max] [Neural Max]; // 保 存 各 神经 元 的 输出 
// 规 定 Layer Node[i] [j] 表 示 第 i 层 第 j 个 神经 元 的 输出 

double D[Layer Max] [Neural Max]; // 保 存 各 神经 元 的 误差 微分 
// 规 定 D[i] [j] 表 示 第 谋 层 第 j 个 神经 元 的 误差 微分 

double Study Speed; // 学 习 速 度 

double e; // 误 差 


}; 
// 构 造 函 数 , 用 来 初始 化 权 系数 ,输入 ,期 望 输出 和 学 习 速 度 
BP::BP() 
{ 
srand (time (NULL) ); // 播 种 ,以 便 产 生 随 即 数 
for (int i=1; i<Layer Max; i++) 
{ 

for (int j=0; j<Layer number[i]; j++) 

# 

for (int k=0; k<Layer number[i-1]+1; k++) 
人 
W[i] [j] [k]=RANDOM; // 随 机 初始 化 权 系数 


} 
//Q[i] [j] =RANDOM; // 初 始 化 各 神经 元 的 阔 值 
} 
} 
// 输 入 和 输出 归 一 化 
for (int 1=0; 1<InMax; 1++) 
{ 
Input Net[0] [1]=1 * 0.05; // 把 0~1 分 成 20 等 分 ,表示 xl 
Input Net[1] [1]=1-1 * 0.05; // 表 示 x2 
} 
for(i=0; i<InMax; i++) 
{ 
for (int j=0; j<InMax; j++) 
{ 
Out_Exp[i][j]=Y(Input_Net[0] [i],Input Net[1] [j]); // 期 望 输出 
Out_Exp[i] [j]=Out_Exp[i][j]/3.000000; ”// 期 望 输出 归 一 化 


Study Speed=0.5; // 初 始 化 学 习 速 度 


e=0.0001; // 误 差 精度 
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}//end 

// 激 发 函数 F() 

double BP: :F (double x) 

{ 

return(1.0/(l+exp (-x))); 

}//end 

// 要 逼近 的 函数 了 () 

// 输 入 : 两 个 浮 点 数 

// 输 出 : 一 个 浮 点 数 

double BP: :Y (double xlvdouble x2) 
{ 

double temp; 

temp=pow (x1-1,4)+2 * pow (x2,2); 
return temp; 

}//end 


// 代 价 函 数 
double BP: :Cost (double Out, double Exp) 
{ 
return (pow (Out-Exp,2)); 
}//end 
// 网 络 输出 函数 
// 输 入 为 : 第 input 个 样本 
double BP: :NetWorkOut (int x1, int x2) 
{ 
int i,j,k; 
double N node[Layer Max] [Neural Max]; 
// 约 定 N_node [i] [j] 表 示 网 络 第 i 层 第 j 个 神经 元 的 总 输入 
// 第 0 层 的 神经 元 为 输入 ,不 用 权 系 数 和 国 值 , 即 输入 什么 即 输出 什么 
N node[0] [0]=Input Net[0] [x1]; 
Layer Node [0] [0]=Input Net [0] [x1]; 
N node[0] [1]=Input Net[1] [x2]; 
Layer Node[0] [1]=Input Net [1] [x2]; 


for(i=1; i<Layer Max; i++) // 神 经 网 络 的 第 二 层 
{ 

for (j=0; j<Layer number [i]; j++) //Layer_number [i] 为 第 二 层 的 

{ // 神 经 元 个 数 

N node[i][j]=0.0; 
for (k=0; k<Layer number[i-1]; k++) //Layer_number [i-1] 
{ // 表 示 与 第 主 层 第 j 个 神经 元 连接 的 上 一 层 的 
// 神 经 元 个 数 


// 求 上 一 层 神经 元 对 第 二 层 第 j 个 神经 元 的 输入 之 和 
N node[i][j]+=Layer Node[i-1] [k] * W[i][j][k]; 


和 

N node[i][j]=N node[i]l[j]-w[i] 0][Ik]; // 减 去 冰 值 
// 求 Layer_Node [i] [j], 即 第 大 层 第 j 个 神经 元 的 输出 

Layer Node[i][j]=F(N node[i][j]); 


' 
return Layer Node[Layer Max-1] [0]; // 最 后 一 层 的 输出 
}//end 
// 求 所 有 神经 元 的 输出 误差 微分 函数 
// 输 入 为 : 第 input 个 样本 
// 计 算 误差 微分 并 保存 在 D[] [] 数 组 中 
void BP::AllLayer D(int x1, int x2) 
{ 
int i,j,k; 
double temp; 
D[Layer Max-1] [0]=Layer Node[Layer Max-1][0] * 
(1-Layer Node[Layer Max-1] [0])* 
(Layer Node[Layer Max-1] [0]-Out Exp[x1] [x2]); 


for(i=Layer Max-1; i>0; i 
* 
for (j=0; j<Layer number [i-1]; j++) 
{ 
temp=0; 
for (k=0; k<Layer number [i]; k++) 
{ 
temp= temp+ W [i] [k] [j] * D[i] [k]; 
} 
D[i-1] [j]=Layer Node[i-1][j] * (1-Layer Node[i-1][j]) * temp; 


} 
}//end 
// 修 改 权 系数 和 国 值 
void BP::Change W() 
{ 
int i,j,k; 
for(i=1; i<Layer Max; i++) 
{ 
for (j=0;j<Layer number [i];j++) 
{ 
for (k=0;k< Layer number[i-1];k++) 
‘ 
// 修 改 权 系数 
WwW[i] [j] [k]=w[i] [j] [Kk] -Study Speed* 
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D[i] [j] * Layer Node[i-1] [k]; 


} 
W[i]l [j] [xk]=W[i] [j] [k]+Study Speedx* D[i][j]; // 修 改 国 值 


} 
}//end 
// 训 练 函 数 
void BP::Train() 
{ 
int i,j; 
int ok=0; 
double Out; 
long int count=0; 
double err; 
ofstream Out count ("Out count.txt",ios::out); 

// 把 其 中 的 5 个 权 系数 的 变化 保存 到 文件 里 
ofstream outWFilel ("W[2] [0] [0] .txt",ios::out); 
ofstream outWFile2("W[2] [1] [1] .txt",ios::out); 
ofstream outWFile3("W[1] [0] [0] .txt",ios::out); 
ofstream outWFile4 ("WI[1] [1] [0] .txt",ios::out); 
ofstream outWFileS5("W[3] [0] [1] .txt",ios::out); 
while (ok< 441) 
{ 

count++; 

//20 个 样本 输入 

for (i=0,ok=0; i<InMax; i++) 

{ 

for (j=0; j<InMax; j++) 

{ 

Out=NetWorkOut (i,j); 
AllLayer D(i,j); 


err=Cost (Out,Out Exp[i] [j]); // 计 算 误差 
if (err<e)ok+t+; // 是 否 满足 误差 精度 
else Change W(); // 是 否 修改 权 系数 和 阔 值 
} 
ifE((countsl1000)==0) // 每 1000 次 ,保存 权 系数 
攻 
Cout<<Ccount<<" "<<err<<endl; 


Out_count<<count<<" 


Out Error<<err<<","; 
outWFilel<<W[2] [0] [0] <<","; 
outWFile2<<W[2] [1] [1]<<","; 
OutWFile3<<W[1] [0] [0] <<" 
outWFile4<<W[1] [1] [0] <<" 
outWFile5<<WI[3] [0] [1]<<" 
for (int p=1; p<Layer Max; p++) 
{ 
for (int j=0; j<Layer number [p]; j++) 
{ 
for (int k=0; k<Layer number[p-1]+1; k++) 
{ 
Out W File<<'W'<<'['<<p<<"']' 


<<"t'<<j<<"]" 
we 
<<'="'<<W[p] [j] [Kk]<<" '<<' 7 
} 
} 
} 
Out W File<<'\n'<<'\n'; 
» 
} 
cout<<err<<endl; 
}//end 
// 打 印 权 系 数 
void BP::BP Print() 
{ 
// 打 印 权 系 数 
cout<< "训练 后 的 权 系 数 "<<endl; 
for (int i=1; i<Layer Max; i++) 
{ 
for (int j=0; j<Layer number[i]; j++) 
{ 
for (int k=0; k<Layer number [i-1]+1; k++) 
{ 
cout<<W[i] [j] [Kk]<<" wp 
} 
cout<<endl; 
} 
} 
cout<<endl<<endl; 
}//end 
// 把 结果 保存 到 文件 
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void BP::After Train Out() 
{ 
int i,j; 


ofstream Out xl ("Out xl1.txt",ios::out); 


ofstream Out x2 ("Out x2.txt",ios::out); 


ofstream Out Net ("Out Net.txt",ios::out); 


ofstream Out Exp("Out Exp.txt",ios::out); 


ofstream W End("W End.txt",ios::out); 


ofstreamQ End("Q End.txt",ios::out); 
ofstream Array ("Array.txt",ios::out); 
ofstream Out x11("xl.txt",ios::out); 
ofstream Out x22("x2.txt",ios::out); 
ofstream Resultl ("resultl.txt", ios::out); 
ofstream Out x111("x1ll.txt",ios::out); 
ofstream Out x222("x22.txt",ios::out); 


ofstream Result2 ("result2.txt", ios::out); 


for(i=0; i<InMax; i++) 

{ 
for (j=0; j<InMax; j++) 
{ 
Out xll<<Input Net([0] [i]<<','; 
Out x22<<Input Net[1] [j]<<","; 
Result1l<<3* NetWorkOut (i,j)<<","; 
Out xl<<Input Net[0] [i]j<<", 
Array<<Input Net [0] [i]<<" 


Out x2<<Input Net[1][j]<< 


Array<<Input Net [1][j]<<" be 
Out Net<<3* NetWorkOut (i,j)<<","; 


Array<<Y (Input_ Net [0] [i],Input Net[1][j])<<" "; 


Out Exp<<Y (Input Net [0] [i],Input Net([1]([j])<<" 
Array<<3* NetWorkOut (i,j)<<" mm 
Array<<'\n'; 

E 

Out xl<<'\n'; 
Out x2<<'\n'; 
Out xll<<'\n'; 
Out x22<<'\n'; 


Resulti<<'\n'; 


for(j=0; j<InMax; j++) 
Li 
for (i=0; i<InMax; i++) 
{ 
Out xlll<<Input Net[0] [i]<<','; 
Out x222<<Input Net[1][j]<<","; 


Result2<<3* NetWorkOut (i,j)<<" 
} 
Out xlll<<'\n'; 
Out x222<<'\n'; 
Result2<<'\n'; 


// 把 经 过 训练 后 的 权 系 数 和 圈 值 保存 到 文件 里 
for(i=1; i<Layer Max; i++) 
tf 

for (int j=0; j<Layer number[i]; j++) 


{ 
for (int k=0; k<Layer number[i-1]+1; k++) 


W End<<W[i] [j] [Kk]<<","; // 保 存 权 系数 
} 


} 
}//end for 


}//end 


void main(void) 
{ 
BP B; 


// 生 成 一 个 BP 类 对 象 B 


B.Train(); // 开 始 训练 
B.BP Print(); // 把 结果 打印 出 来 
// 把 结果 保存 到 文件 


B.After Train Out(); 

} 

运行 结果 如 图 6-12 所 示 ,程序 采用 BP 神经 网 络 结构 ( 正 向 神经 网 络 结构 为 2-4-4-2-1) 
去 逼近 函数 。 

fasz)= (nm —1)+27.: 

(1) 网 络 各 神经 元 的 激发 函数 为 : s 函数 一 一 F(x) = 1/[1 十 exp( 一 x)]。 

(2) 输入 层 的 神经 元 不 是 真正 的 神经 元 ,它们 的 输出 等 于 输入 。 

(3) 取 20 个 样本 值 作 为 训练 用 。 

(4) zi ,zz 的 取 值 范围 是 : 0<xi ,zs 志 1。 
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89.806176986 
9. 880111358 


图 6-12 输出 的 结果 


EE 0. 0001 。 

对 要 双 近 的 函数 / (zi ,zs ) 二 (x 一 1)' 十 2x2 进行 分 析 。zx ,zs 的 取 值 范围 是 : 0: 
ZisXs 三 1。 那么 ,输入 就 不 用 归 一 化 了 (车 zx ,x 的 值 域 不 在 0 一 1, 那 就 要 输入 归 一 化 
了 ,因为 我 们 可 以 从 神经 网 络 的 激发 函数 看 出 ,输入 在 0 一 1 时 ,变化 率 是 很 大 的 ,所 以 网 
络 对 输出 很 敏感 ) 。 求 该 函数 的 值 域 ,很 显然 该 函数 的 值 域 为 0 一 3, 这 就 需要 归 一 化 了 ， 
因为 神经 网 络 输出 的 值 只 能 为 0 一 1。 设 Out_Exp[ 门 为 第 i 个 输入 样本 的 期 望 值 ,那么 归 

-化 后 的 期 望 输出 就 为 Out_Exp[ 革 /3, 用 这 个 值 和 网 络 的 输出 进行 比较 ,来 进行 训练 。 

最 后 在 网 络 输出 时 要 反 归 一 化 , 即 把 网 络 的 输出 乘 以 3 

首先 ,我 们 考虑 如 何在 计算 机 程序 设计 中 表示 权 系数 和 净值 ,在 这 里 我 们 定义 了 三 维 
数组 机 [Layer_Max][Node_Max][Node_Max 十 1] 用 来 表示 神经 网 络 的 全 部 权 系数 和 赣 
值 ,Layer_Max 表示 P 构 的 层 数 ,Node_Max 表示 整个 神经 网 络 各 层 中 含有 神经 元 最 
大 数目 的 个 数 ,Layer[ 疏 数组 表示 网 络 中 第 i 层 的 神经 元 个 数 。 我 们 约定 W[ 站 [7][kj 存 
储 网 络 的 权 系 数 , 其 中 i 表示 神经 网 络 的 第 i 层 ,ji 表示 第 i 层 网 络 的 第 j 个 神经 元 ,k 表 
示 第 i 一 1 层 的 第 j 个 神经 网 络 。 那 么 ,W[ 让 [j][kj 就 表示 第 i 层 的 第 j 个 神经 元 和 第 
i 一 1 层 的 第 上 个 神经 元 的 权 系 数 。W[ 门 [j][Layer[i 一 1] 十 1] 表 示 第 i 层 第 j 个 神经 元 


的 国 值 。 
然后 ,我 们 定义 网 络 输入 和 期 望 输出 的 数组 。 定 义 二 维 数组 Input_Net[2][21] 为 网 


络 的 输入 数组 ,在 这 里 为 了 方便 , 取 21 个 样本 ,其 中 zi 取 值 从 0 开始 ,以 每 次 加 0. 05 的 
步 长 作为 下 一 个 样本 取 值 ,而 zx; 的 取 值 则 与 之 相反 。 那 么 ,由 于 zi 和 xo 各 有 21 个 值 ， 
由 排列 组 合 得 出 网 络 训 练 样本 一 共有 21X 21 二 421 个 样本 。 我 们 再 定义 一 个 二 维 数组 
( 


)ut_ExpL21][21] 表 示 期 望 输 出 。 定 义 二 维 数组 Layer_Node[i][jj] 存 储 各 层 神经 元 的 输 
1, 表 示 第 i 层 第 j 个 神经 元 的 输出 。 定 义 二 维 数组 D[ 引 [站 存储 各 层 神经 元 的 误差 微分 ， 
表示 第 i 层 第 j 个 神经 元 的 误差 微分 。 代 价 函 数 为 (NetOut(i, 站 一 Out_Exp[i[])*/2。 其 
中 ,NetOut(i,) 表 示 输 入 友 ! 的 第 i 个 值 和 zs 的 第 7 个 值 所 组 成 的 样本 时 ,网 络 的 实际 
输出 。 

确定 BP 算法 的 关键 子 程序 如 下 : 
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(1) F(double z) ,该 函数 是 该 神经 网 络 的 唯一 激发 函数 , 它 的 数学 表达 F(z) 二 1/ 
[1 十 exp( 一 x)j, 它 的 输入 为 样本 值 NetIn[i]。 

(2) Initialize( ) 该 函数 是 网 络 初始 化 子 程序 , 它 初始 化 权 系数 和 国 值 ,学 习 速 率 ,误差 
精度 等 。 

(3) NetWorkOut(int i,int 7) ,该 函数 的 输入 为 x 的 第 i 个 值 和 xz 的 第 j 个 值 所 组 成 的 
样本 ,在 计算 网 络 输出 的 时 候 ,同时 计算 各 层 神经 元 的 输出 ,并 保存 在 Layer_Node[ ][] 数 组 
里 。 输 出 为 神经 网 络 的 实际 输出 。 

(4) AllLayer_D(int i, int j) ,该 函数 的 输入 为 输入 zi 的 第 i 个 值 和 xz 的 第 j 个 值 
所 组 成 的 样本 时 的 数组 下 标 ,目的 是 计算 各 层 神 经 元 的 误差 微分 ,并 把 它们 保存 在 DLJL] 
数组 里 。 

(5) Change_W() ,该 函数 用 于 根据 AllLayer_D() 计 算出 来 的 误差 微分 改变 权 系 数 ， 
根据 经 典 的 BP 算法 可 以 写 出 改变 权 系数 和 立 值 的 式 子 。 

WI[iILJ[Lk] = WLiJ[Ljj[k]— Study_Speed » D[i][j] * Layer_Node[i— 1][k] 
三 [让 [DLLayer[L 一 二 十 1 = W[ij[jj[Layer[i—1]+1]+Study_Speed »。 D[i][;] 
。 Layer_Node[i— 1]J[Layer[i—1]+1] 
其 中 ,Study_Speed 为 学 习 速 率 , 取 值 为 (0,1), 如 果 太 大 ,网 络 将 会 出 现 振荡 ,而 不 能 
收敛 。 

(6) 函数 Train() 用 于 神经 网 络 训 练 。 它 调用 了 上 面 几 个 孔 数 来 完成 网 络 训练 。 当 

训练 完 ( 即 网 络 对 于 该 问题 是 可 以 收敛 的 ) 时 ,网 络 就 可 以 在 特定 的 误差 范 内 逼近 函数 。 


6.5 ”BP 算法 的 特点 及 应 用 
6.5.1 BP 算法 特点 


BP 神经 网 络 具有 以 下 优点 。 

(1) 非 线性 映射 能 力 : BP 神经 网 络 实质 上 实现 了 一 个 从 输入 到 输出 的 映射 功能 , 数 
学 理论 证 明 三 层 的 神经 网 络 就 能 够 以 任意 精度 逼近 任何 非 线性 连续 函数 。 这 使 得 其 特别 
适合 于 求解 内 部 机 制 复杂 的 问题 , 即 BP 神经 网 络 具 有 较 强 的 非 线 性 映射 能 力 。 

(2) 自学 习 和 自 适应 能 力 : BP 神经 网 络 在 训练 时 ,能 够 通过 学 习 自 动 提取 输出 、 输 
出 数据 间 的 “合理 规则 ”, 并 自 适应 地 将 学 习 内 容 记 忆 于 网 络 的 权 值 中 。 即 BP 神经 网 络 
具有 高 度 自学 习 和 自 适应 的 能 力 。 

(3) 泛 化 能 力 : 所 谓 泛 化 能 力 是 指 在 设计 模式 分 类 器 时 , 既 要 考虑 网 络 在 保证 对 所 
需 分 类 的 对 象 进行 正确 分 类 ,还 要 关心 网 络 在 经 过 训练 后 ,能 否 对 未 见 过 的 模式 或 有 噪声 
污染 的 模式 ,进行 正确 的 分 类 ,也 即 BP 神经 网 络 具 有 将 学 习 成 果 应 用 于 新 知识 的 能 力 。 

(4) 容错 能 力 : BP 神经 网 络 在 其 局 部 的 或 者 部 分 的 神经 元 受到 破坏 后 对 全 局 的 训 
练 结 果 不 会 造成 很 大 的 影响 ,也 就 是 说 即使 系统 在 受到 局 部 损伤 时 还 是 可 以 正常 工作 的 ， 
即 BP 神经 网 络 具 有 一 定 的 容错 能 力 。 

BP 神经 网 络 也 暴露 出 了 越 来 越 多 的 缺点 和 不 足 , 例 如 : 
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(1) 局 部 极 小 化 问题 : 从 数学 角度 看 ,传统 的 BP 神经 网 络 为 一 种 局 部 搜索 的 优化 方 
法 , 它 要 解决 的 是 一 个 复杂 的 非 线性 化 问题 ,网 络 的 权 值 是 通过 沿 局 部 改善 的 方向 逐渐 进 
行 调整 的 ,这 样 会 使 算法 陷入 局 部 极 值 , 权 值 收敛 到 局 部 极 小 点 ,从 而 导致 网 络 训 练 失败 。 
加 上 BP 神经 网 络 对 初始 网 络 权重 非 常 敏感 ,以 不 同 的 权重 初始 化 网 络 , 其 往往 会 收敛 于 
不 同 的 局 部 极 小 值 ,这 也 是 很 多 学 者 每 次 训练 得 到 不 同 结果 的 根本 原因 。 

(2) BP 神经 网 络 算法 的 收敛 速度 慢 : 由 于 BP 神经 网 络 算法 本 质 上 为 梯度 下 降 法 ， 
它 所 要 优化 的 目标 函数 是 非常 复杂 的 ,因此 ,必然 会 出 现 “ 锯 齿 形 现 象 ”, 这 使 得 BP 算法 
低 效 ; 又 由 于 优化 的 目标 函数 很 复杂 , 它 必然 会 在 神经 元 输出 接近 0 或 1 的 情况 下 ,出现 
一 些 平坦 区 ,在 这 些 区 域内 , 权 值 误差 改变 很 小 ,使 训练 过 程 几乎 停顿 ;BP 神经 网 络 模型 
中 ,为 了 使 网 络 执行 BP 算法 ,不 能 使 用 传统 的 一 维 搜索 法 求 每 次 迭代 的 步 长 ,而 必须 把 
步 长 的 更 新 规则 预先 赋予 网 络 ,这 种 方法 也 会 引起 算法 低 效 。 以 上 种 种 ,导致 了 BP 神经 
网 络 算法 收敛 速度 慢 的 现象 。 

(3) BP 神经 网 络 结构 选择 不 一 : BP 神经 网 络 结构 的 选择 至 今 尚 无 一 种 统一 而 完整 
的 理论 指导 ,一 般 只 能 根据 经 验 选 定 。 网 络 结构 选择 过 大 ,训练 中 效率 不 高 ,可 能 出 现 过 
拟 合 现象 ,造成 网 络 性 能 低 ,容错 性 下 降 , 若 选择 过 小 , 则 又 会 造成 网 络 可 能 不 收敛 。 而 网 
络 的 结构 直接 影响 网 络 的 逼近 能 力 及 推广 性 质 。 因 此 ,应 用 中 如 何 选择 合适 的 网 络 结构 
是 一 个 重要 的 问题 。 

(4) 应 用 实例 与 网 络 规模 的 矛盾 问题 : BP 神经 网 络 难以 解决 应 用 问题 的 实例 规模 
和 网 络 规模 间 的 矛盾 问题 ,其 涉及 网 络 容量 的 可 能 性 与 可 行 性 的 关系 问题 , 即 学 习 复 杂 性 
问题 。 

(5) BP 神经 网 络 预测 能 力 和 训练 能 力 的 矛盾 问题 : 预测 能 力也 称 泛 化 能 力 或 者 推 
广 能 力 ,而 训练 能 力也 称 副 近 能 力 或 者 学 习 能 力 。 一 般 情况 下 ,训练 能 力 差 时 ,预测 能 力 
也 差 , 并 且 在 一 定 程度 上 , 随 着 训练 能 力 的 提高 ,预测 能 力也 会 得 到 提高 。 但 这 种 趋势 不 
是 固定 的 ,其 有 一 个 极限 , 当 达 到 此 极限 时 , 随 着 训练 能 力 的 提高 ,预测 能 力 反 而 会 下 降 ， 
也 即 出 现 所 谓 的 “过 拟 合 " 现 象 。 出 现 该 现象 的 原因 是 网 络 学 习 了 过 多 的 样本 细节 ,导致 
学 习 出 的 模型 已 不 能 反映 样本 内 含 的 规律 ,所 以 如 何 把 握 好 学 习 的 度 ,解决 网 络 预测 能 力 
和 训练 能 力 间 的 矛盾 也 是 BP 神经 网 络 的 重要 研究 内 容 。 

(6) BP 神经 网 络 样本 依赖 性 问题 : 网 络 模型 的 逼近 和 推广 能 力 与 学 习 样本 的 典型 
性 密切 相关 ,而 从 问题 中 选取 典型 样本 实例 组 成 训练 集 是 一 个 很 困难 的 问题 。 


6.5.2 BP 算法 应 用 


随 着 人 工 神 经 网 络 技术 的 不 断 成 熟 和 发 展 ,神经 网 络 的 智能 化 特征 与 能 力 使 其 应 
领域 日 益 扩 大 ,许多 用 传统 信息 处 理 方法 无 法 解决 的 问题 采用 神经 网 络 后 都 取得 了 良好 
的 效果 ,特别 是 在 工程 领域 中 得 到 了 广泛 的 应 用 。 神 经 网 络 目前 主要 应 用 于 以 下 几 个 
领域 。 

(1) 信息 领域 : 作为 一 种 新 型 智能 信息 处 理 系统 ,神经 网 络 应 用 于 信号 处 理 、 模 式 识 
别 , 数 据 压缩 等 方面 。 


144 


人 工 神经 网 络 算法 


(2) 自动 化 领域 : 神经 网 络 和 控制 理论 与 控制 技术 相 结 合 ,发 展 为 自动 控制 领域 的 一 个 前 
沿 学 科 一 一 神经 网 络 控制 。 在 系统 辨识 .神经 控制 器 ,智能 检测 等 方面 取得 了 发 展 。 

(3) 工程 领域 : 例如 汽车 工程 、 军 事 工程 ,化 学 工程 ,水利 工 程 等 。 

(4) 医学 领域 : 在 医学 领域 ,神经 网 络 可 用 于 检测 数据 分 析 、 生 物 活性 研究 、 医 学 专 
家 系统 等 。 

(5) 经济 领域 : 由 于 神经 网 络 具 有 优化 计算 、 聚 类 和 预测 等 功能 ,在 商业 界 得 到 了 广 
泛 的 应 用 。 金 融 市 场 采用 神经 网 络 建立 信用 卡 和 货币 交易 模型 ,用 于 识别 信贷 客户 、 股 票 
预测 和 证 券 市 场 分 析 等 方面 。 


6.6 小 结 


本 章 首 先 介 绍 了 生物 与 人 工 神经 元 模型 ,然后 简单 列举 了 主要 的 神经 网 络 模型 ,重点 
剖析 了 BP 算法 ,阐述 了 它 的 原理 、 结 构 . 工 作 过 程 。 本 章 还 举 了 两 个 简单 实例 ,使 读者 了 
解 BP 算法 的 具体 工作 过 程 。 最 后 介绍 了 BP 算法 的 特点 以 及 应 用 。 


思考 题 


1. 讨论 BP 神 经 网 络 处 理 分 类 问题 的 原理 ,并 举例 说 明 此 网 络 的 应 用 。 
2. 简 述 BP 神经 网 络 算法 的 优点 和 不 足 。 
3. 简 述 BP 神经 网 络 算法 的 学 习 过 程 。 
4. 对 如 图 6-13 所 示 的 BP 神经 网 络 , 学 习 系数 y 二 1, 各 点 的 阅 值 9 二 0。 作 用 函数 为 
., 、_ /xz， Zz 宇 1 
I sy 
输入 样本 zx 二 1,zs 二 0, 输 出 节点 = 的 期 望 输出 为 1, 对 于 第 次 学 习 得 到 的 权 值 分 别 为 
wn (Ck) 二 0,wz(k) 二 2,wa(k) 二 2,wzs(k) 二 1, Ti(k) 二 1,T,(k) = 二 1, 求 第 次 和 kk 十 1 次 
学 习 得 到 的 输出 节点 值 x(A) 和 =(&A 十 1)( 写 出 计算 公式 和 计算 过 程 ) 。 


wa(A)=1 


Wai(O-2 Wia(D-2 


xi=1 =0 


图 6-13 BP 神 经 网 络 
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第 7 章 支持 向 量 机 


7.1 基本 概念 
7.1.1 支持 向 量 机 理论 基础 


在 统计 学 习 理 论 基础 之 上 发 展 起 来 的 支持 向 量 机 (Support Vector Machine, SVM) 
算法 ,是 一 种 专门 研究 有 限 样本 预测 的 学 习 方 法 。 与 传统 统计 学 相 比 ,SVM 算法 没有 以 
传统 的 经 验 风 险 最 小 化 原则 作为 基础 ,而 是 建立 在 结构 风险 最 小 化 原理 的 基础 之 上 ,发 展 
成 为 一 种 新 型 的 结构 化 学 习 方法 ,统计 学 习 理论 是 支持 向 量 机 理论 发 展 的 基础 ,为 了 进 一 
步 深入 研究 SVM, 需 要 对 统计 学 习 的 核心 理论 进行 深入 理解 。 


7.1.2 统计 学 习 核 心理 论 


统计 学 习 理论 被 认为 是 目前 针对 小 样本 统计 估计 和 预测 学 习 的 最 佳 理 论 , 它 从 理论 
上 较 系 统 地 研究 了 经 验 风险 最 小 化 原则 成 立 的 条 件 , 有 限 样本 下 经 验 风险 与 期 望 风险 的 
关系 ,及 如 何 利 用 这 些 理论 找到 新 的 学 习 原 则 。 一 般 来 说 ,经 验 风险 最 小 并 不 一 定 意味 着 
期 望 风 险 最 小 ;学 习 的 复杂 性 不 但 与 学 习 目 标 有 关 , 而 且 还 要 考虑 样本 集 的 有 限 性 。 这 就 
是 有 限 样本 下 学 习 机 器 的 复杂 性 和 泛 化 能 力 之 间 的 矛盾 。 因 此 ,我 们 需要 一 种 新 的 学 习 
原则 来 代替 传统 的 经 验 风险 最 小 化 原则 , 它 能 够 指导 我 们 在 有 限 样本 或 小 样本 的 情况 下 
获得 具有 优异 泛 化 能 力 的 学 习 机 器 。 结 构 风 险 最 小 归纳 原理 的 出 现 , 一 举 解决 了 这 个 难 
题 , 它 包 括 了 学 习 的 一 致 性 ,边界 理论 和 结构 风险 最 小 化 原理 等 部 分 。 它 所 提出 的 结构 风 
险 最 小 化 归纳 学 习 过 程 克 服 了 经 验 风险 最 小 化 的 缺点 ,获得 了 更 好 的 学 习 效果 。 


7.1.3 学 习 过 程 的 一 致 性 条 件 


学 习 过 程 的 一 致 性 结论 是 统计 学 习 理 论 的 基础 ,也 是 与 传统 渐 近 统计 学 的 基本 联系 
所 在 。 所 谓 学 习 过 程 的 一 致 性 (consistency) ,就 是 指 当 训练 样本 数目 趋 于 无 穷 大 时 ,经 验 
风险 的 最 优 值 能 够 收敛 到 真实 风险 的 最 优 值 ,只 有 满足 学 习 过 程 的 一 致 性 条 件 ,才能 保证 
在 学 习 样 本 无 穷 大 时 ,经 验 风 险 最 小 化 原则 下 得 到 的 最 优 学 习 机 器 的 性 能 趋 近 于 期 望 风 
险 最 小 时 的 最 优 结 果 。 只 有 满足 一 致 性 条 件 .才能 说 明 学 习 方 法 是 有 效 的 。 经 验 风 险 和 
期 望 风 险 之 间 的 这 种 关系 ,可 以 用 图 7-1 表述 .其 中 R(a) 为 实际 可 能 的 最 小 风险 。 

定义 7.1: (一 致 性 ) (zw ),(Cz,yz),…,(Cry) 是 按照 概率 分 布 F(Cz,y) 得 到 的 
独立 同 分 布 的 观测 样本 集合 ,f(z.a) 是 函数 集 T 中 使 得 经 验 风 险 Romo (w ) 最 小 化 的 预 
测 函 数 。 车 对 任意 的 :二 0, 有 
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期 望 风 险 


图 7-1 经 验 风险 和 期 望 风险 关系 示意 图 


风险 


Roy) 


一 
h 


limP{[R(a)— infyerR (a)]>e}=0 (7-1) 
limP{ [Row Ca)— infyerR (a) J> e}=0 (7-2) 
则 称 经 验 风险 最 小 化 原则 对 于 函数 集 六 和 概率 分 布下 (z,y) 是 一 致 的 。 换 言 之 ,如 果 经 
验 风 险 最 小 化 是 一 致 的 ,那么 它 必 须 提供 一 个 函数 序列 f(x,a) ,1 二 1,2,… ,使 得 期 望 风 
险 和 经 验 风险 收敛 到 一 个 可 能 的 最 小 风险 值 。 
定理 7.1: 设 存在 常数 A 和 B, 使 得 对 于 函数 集 TT 二 {f(z,a) |aEA}) 的 所 有 函数 和 
给 定 的 概率 分 布 F(r,y) ,有 下 列 不 等 式 成 立 : 
A< rts ra) F(z,y)< B, a€A (7-3) 


则 经 验 风险 最 小 化 原则 一 致 性 的 充分 必要 条 件 是 : 经 验 风险 Romo (a ) 在 整个 函数 集 T 上 
的 一 致 单 边 收敛 到 期 望 风险 R(a), 即 

limP {sup[LR(a)— Ranp (ai)]>e}=0, fET, Ve>0 (7-4) 
定理 7.1 是 Vapnik 和 Chervonenkis 于 1989 年 提出 的 ,在 统计 学 习 理 论 中 具有 非常 重要 
的 地 位 ,因此 称 为 学 习 理论 的 关键 定理 。 它 把 学 习 一 致 性 问题 转化 为 一 致 收敛 问题 ,解释 
了 经 验 风 险 最 小 化 原则 在 什么 条 件 下 可 以 保证 是 一 致 的 ,但 它 并 没有 给 出 什么 样 的 函数 
集 才 能 够 满足 这 些 条 件 ,也 没有 说 明 如 何 对 事件 sup[R(a) 一 Romo (a )] 二 es,7ED 出现 的 
概率 进行 估计 。 为 此 统计 学 习 理 论 定义 了 一 些 指标 来 衡量 函数 集 的 性 能 ,其 中 最 重要 的 
是 函数 集 的 VC 维 。 


7.1.4 函数 集 的 VC 维 


VC 维 是 统计 学 习 理 论 中 的 一 个 核心 概念 , 它 是 目前 为 止 描述 函数 集 学 习性 能 最 好 
的 指标 ,并 且 在 计算 函数 集 与 分 布 无 关 的 泛 化 能 力 界 中 起 着 重要 作用 。 指 示 函 数 集 VC 
的 直观 定义 是 对 于 一 个 指示 函数 集 , 如 果 存 在 h 个 样本 能 够 被 函数 集 里 的 函数 按照 所 有 
可 能 的 2* 种 组 合 分 成 两 类 , 则 称 函数 集 能 够 把 样本 数 为 h 的 样本 集 打 散 (shattering)。 函 
数 集 的 VC 维 就 是 它 能 打 散 的 最 大 样本 数目 h。 若 对 任意 数目 的 样本 ,函数 集 下 都 有 函 
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数 能 将 它们 打 散 , 则 称 函 数 集 的 VC 维 是 无 穷 大 的 ,为 此 图 7-2 已 说 明 。 
ONOGOS 0 oO Oe 
O 9 > 。 
O 
ee cl ol o 
| O O 〇 OO Q 


图 7-2 打 散 三 个 样本 


不 难看 出 ,VC 维 实质 上 反映 了 函数 集 的 学 习 能 力 。 一 般 而 言 ,VC 维 越 大 , 则 学 习 机 
器 越 复杂 ,学习 容 量 也 就 越 大 。 令 人 遗憾 的 是 ,目前 尚 没有 通用 的 关于 如 何 计算 任意 函数 
集 的 VC 维 的 方法 ,只 有 一 些 特殊 的 函数 集 的 VC 维 可 以 准确 地 知道 。 例 如 ,2 维 空间 中 
的 任意 线性 函数 集 的 VC 维 是 2 十 1, 而 对 于 一 些 比较 复杂 的 学 习 机 器 (如 神经 网 络 ) ,其 
VC 维 除了 与 函数 集 选 择 有 关外 ,通常 也 受 学 习 算 法 等 因素 的 影响 ,确定 将 更 加 困难 。 实 
际 应 用 中 ,通常 采用 精妙 的 数学 技巧 避免 直接 求解 VC 维 。 


7.1.5 泛 化 误差 界 


统计 学 习 理 论 从 VC 维 的 概念 出 发 ,推导 出 关于 经 验 风 险 和 期 望 风险 之 间 关 系 的 重 

要 结论 , 称 为 泛 化 误差 界 。 这 些 界 是 分 析 学 习 机 器 性 能 和 发 展 新 的 学 习 算 法 的 重要 基础 。 

统计 学 习 理论 中 给 出 了 以 下 估计 真实 风险 的 不 等 式 : 对 于 任意 cE P(GP 是 抽象 参数 集 
合 ), 以 至 少 1 一 7 的 概率 满足 下 列 不 等 式 : 

R(a)< Row (0)+ yh/1) (7-5) 


其 中 ,yh/D= EE nD 


Rmo (a) 表 示 经 验 风险 ; y(h/1) 称 为 置信 和 风险;/ 代表 样本 个 数 ,参数 h 则 为 一 个 函数 集合 
的 VC 维 。 

上 述 不 等 式 ( 也 称 为 定理 ) 说 明了 学 习 机 器 的 期 望 风险 ,是 由 两 部 分 组 成 的 : 第 一 部 
分 是 经 验 风险 (学 习 误 差 引起 的 损失 ) ,依赖 于 预测 函数 的 选择 ; 另 一 部 分 称 为 置信 范围 ， 
是 关于 函数 集 VC 维 关 的 增 函 数 。 显 然 , 如 果 Wh 较 大 , 则 期 望 风险 值 由 经 验 风险 值 决 
定 ,此 时 为 了 最 小 化 期 望 风险 ,我 们 只 需要 最 小 化 经 验 风险 ;相反 ,如 果 Lh 较 小 ,经 验 风 
险 最 小 并 不 能 保证 期 望 风险 一 定 最 小 ,此 时 我 们 必须 同时 考虑 不 等 式 (7-5) 右 端的 两 项 
之 和 , 称 为 结构 风险 。 


7.1.6 结构 风险 最 小 化 归纳 原理 


结构 风险 最 小 化 归纳 原理 的 基本 想法 是 : 如 果 要 求 风险 最 小 ,就 需要 不 等 式 (7-5) 中 
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的 右 端 两 项 相互 权衡 ,共同 趋 于 最 小 ;另外 ,在 获得 学 习 模 型 经 验 风 险 最 小 的 同时 ,希望 学 
习 模 型 的 推广 能 力 尽 可 能 大 ,这 样 就 需要 ” 值 尽 可 能 小 , 即 置信 风险 尽 可 能 小 。 根 据 风险 
估计 不 等 式 , 如果 固 定 训练 样本 数目 /的 大 小 , 则 控制 风险 R (a) 的 参数 有 两 个 : 

Re (a) 和 及 。 其 中 ,经 验 风险 Row (a ) 依 赖 于 学 习 机 器 所 选 定 的 函数 f(a,x) ,这 样 ,我 们 
就 可 以 通过 控制 a 来 控制 经 验 风险 。VC 维 h 依赖 于 学 习 机 器 所 工作 的 函数 集合 。 为 了 
获得 对 的 控制 ,可 以 将 函数 集合 结构 化 ,建立 与 各 函数 子 结构 之 间 的 关系 ,通过 控制 
对 函数 结构 的 选择 来 达到 控制 VC 维 的 目的 。 具体 地 ,运用 以 下 方法 将 函数 集合 
{f(x,o) |oET} 结 构 化 ,考虑 函数 的 嵌 套 子 集 决定 的 函数 集合 , 即 SCS:CS:C…C 


SiC…CS,, 其 中 Si={f(zxwo)|oET), 并 且 有 S*=Us,。 

结构 S* 中 的 任何 元 素 Se 拥有 一 个 有 限 的 VC 维 记 ,上 且 加 二 hs 三 … 二 hh,。 如 果 给 定 
一 组 样本 (ziyy),(Czyy ) (zy) ,结构 风险 最 小 化 原理 就 是 在 函数 子 集 Se 中 选 
择 一 个 函数 Fo ,z) 来 最 小 化 经 验 风 险 ( 通 常 它 随 着 子 集 复 杂 度 的 增加 而 减 小 ) ,同时 ,Sx 
确保 置信 风险 是 最 小 的 。 选 择 最 小 经 验 风险 与 置信 风险 之 和 最 小 的 子 集 就 可 以 达到 期 户 
风险 最 小 ,这 个 子 集中 使 经 验 风 险 最 小 的 函数 就 是 要 求 的 最 优 函 数 ,这 种 思想 称 为 结构 风 
险 最 小 化 。 根 据 以 上 的 分 析 , 可 以 得 到 两 种 运用 结构 风险 最 小 化 归纳 原理 构造 学 习 机 器 
的 思路 。 

(1) 给 定 一 个 函数 集合 ,按照 上 述 方法 组 织 一 个 嵌 套 的 函数 结构 ,在 每 个 子 集中 求 取 
最 小 经 验 风险 ,然后 选择 经 验 风险 与 置信 风险 之 和 最 小 的 子 集 。 但 是 , 当 子 集 数目 较 大 
时 ,该 方法 较为 费时 ,甚至 不 可 行 。 

(2) 构造 函数 集合 的 某 种 结构 ,使 得 在 其 中 的 各 函数 子 集 均 可 以 取得 最 小 的 经 验 风 
险 。 例 如 使 训练 误差 为 0, 然 后 ,选择 适当 的 子 集 使 得 置信 风险 最 小 ,此 时 相应 的 函数 子 
集中 使 得 经 验 风险 最 小 的 函数 就 是 所 求解 的 最 优 函数 。 支 持 向 量 机 就 是 这 种 思想 的 具体 
体现 。 


7.2 支持 向 量 机 原理 
7.2.1 支持 向 量 机 核心 理论 

支持 向 量 机 (Support Vector Machine，SVM) 是 在 统计 学 习 理 论 的 VC 维 理论 和 结 
构 风 险 最 小 原理 的 基础 上 发 展 起 来 的 一 种 新 的 机 器 学 习 方 法 。 它 根据 有 限 的 样本 信息 在 
模型 的 复杂 性 ( 即 对 特定 训练 样本 的 学 习 精度 ) 和 学 习 能 力 ( 即 无 错误 地 识别 任意 样本 的 
能 力 ) 之 间 寻 求 最 佳 折 中 ,以 期 获得 最 好 的 推广 能 力 。 目 前 SVM 已 初步 表现 出 很 多 优 于 
已 有 方法 的 性 能 ,一 些 学 者 认为 ,SVM 正在 成 为 继 神 经 网 络 之 后 新 的 研究 热点 ,并 将 推动 
机 器 学 习 理 论 和 技术 的 重大 发 展 。 
7.2.2 最 大 间隔 分 类 超 平面 


支持 向 量 机 最 初 是 针对 线性 可 分 情况 下 的 二 类 模式 分 类 问题 而 提出 的 。 给 定 观 测 样 
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本 集 S={(Cryy), (zyy),…)CXX{ 一 1， H 2 
1) ,其 中 XCR" 称 为 输入 空间 或 输入 特征 空 
间 ,y:E1{ 一 1,1}) 是 样本 的 类 标记 。 分 类 的 目 三 
的 就 是 找 一 个 分 类 超 平面 将 正 负 两 类 完全 分 
开 , 如 图 7-3 所 示 。 
设 G={w*， zx 十 b= 二 0|w,7EX,bER}) 是 所 
有 能 够 对 S 完全 正确 分 类 (经 验 风 险 为 0) 的 
超 平面 的 集合 。 其 中 。 "是 内 积 运 算 符 。"“ 完 
全 正确 分 类 "的 意义 是 : 任意 一 个 法 向 量 w( 不 
失 一 般 性 , 令 | w | 二 1) 和 常数 5 所 确定 分 类 
超 平面 五 , 它 对 样本 集 S 的 分 类 结果 为 : 
we。Xi 十 b 宇 0， 车 y; = 十 1 (7-6) 
w。Xi 十 b 达 0， 车 y= 一 1 (7-7) 
在 所 有 的 超 平面 中 ,最 大 间隔 分 类 器 要 寻找 的 是 一 个 最 优 超 平面 (Optimal 
Hyperplane) 。 这 个 最 优 超 平面 是 指 满足 两 类 的 分 类 间隔 (Margin) 最 大 的 超 平面 。 分 类 
间隔 被 定义 为 : 每 类 距离 超 平面 最 近 的 样本 到 超 平面 的 距离 之 和 。 
此 分 类 间隔 可 以 经 过 如 下 的 计算 得 到 : 设 互 为 最 优 超 平面 ,在 互 两 侧 分 别 作 一 个 经 
过 距离 玉 最 近 的 样本 并 且 平 行 于 五 的 超 平面 , 记 为 Hl 和 万:。 这 两 个 超 平面 的 表达 式 
分 别 为 : 


margin=2/||w|| 


图 7-3 线性 可 分 的 分 类 超 平 面 


Hi:y=w*x+b=1, Hs:y=w*x+b 1 (7-8) 

显然 , 超 平面 厅 :y 二 w，x 十 6 二 0 仍然 属于 G。 我 们 把 超 平面 Hl 和 H 之 间 的 距离 

称 为 H 的 “分 类 间隔 A”, 并 将 有 H, 和 HH; 称 为 H 的 “间隔 超 平面 "或 者 “间隔 边界 ”。 容 易 
计算 A=2/ wl ==d+ 十 d-。 

所 谓 的 “最 大 间隔 分 类 超 平面 "就 是 在 正确 分 类 所 有 学 习 样 本 ( 即 满足 约束 条 件 

yi(w。Xi 十 b) 宇 1 的 前 提 下 ) ,使 得 分 类 间隔 A 取 最 大 值 的 超 平面 ,例如 ,图 7-3 中 所 示 的 


平面 肛 。 


7.2.3 支持 向 量 机 


1. 数据 线性 可 分 的 情况 
为 了 求解 线性 可 分 情况 下 的 最 大 间隔 超 平面 ,需要 在 满足 约束 y;[w* zi 十 0] 宇 1， 
i 三 1,2,… on 的 前 提 下 最 大 化 间隔 ,等 价 于 以 下 的 优化 问题 : 
minws 去 we (7-9) 
约束 条 件 是 y;[w* zi 十 6] 这 1,i 二 1,2,…,n。 


这 是 一 个 典型 的 线性 约束 凸 二 次 规划 问题 , 它 唯一 确定 了 最 大 间隔 分 类 超 平面 。 引 
入 拉 格 朗 日 乘 子 a; 宇 0,i 二 1,2,…,n, 根 据 目标 也 数 及 其 约束 条 件 建立 Lagrange 卫 数 。 
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LCw0o 一 于 | 用 一 we[yCw zit6)—1] (7-10) 
将 Lagrange 函数 求 关于 w,b 的 极 小 值 , 即 由 下 一 0, 基 一 0. 得 到 以 下 算式 : 
Sa 一 0， 一 Sg «7=11》 
将 上 式 代 入 Lagrange 函数 ,可 整理 得 
L= Da -二 > Painsyiyi (xri) 《7=12) 
考虑 Wolf 对 偶 性 质 , 即 可 得 到 优化 问题 的 对 偶 问 题 : 
max 一 十 > Sp CE 3 (7-13) 
[地 Si =0 


Ne 
可 见 对 偶 问题 仍然 是 线性 约束 的 凸 二 次 优化 ,存在 唯一 的 最 优 解 a”。 
根据 约束 优化 问题 的 KKT(CKarush-Kuhn-Tucker) 条 件 , 优 化 最 优 解 a 时 ,应 满足 
如 下 条 件 : 
ar (yi(w” oxXitb)—1)=0, i=1,2,.,n (7-14) 
由 于 只 有 少 部 分 观测 样本 xz; 满足 y;(w*。，zi; 十 b" ) 三 1, 它 们 对 应 的 Lagrange 乘 子 oz 二 
0, 而 剩余 的 样本 满足 a? 二 0。 我 们 称 解 w” 的 这 种 性 质 为 “ 稀 玻 性 ”。 
通常 我 们 把 oz 二 0 的 观测 样本 称 为 支持 向 量 (Support Vector) ,它们 位 于 间隔 边界 
Hi 或 有 上 。 结 合 公式 (7-11) 和 公式 (7-14) 可 知 ,w* 和 wb" 均 由 支持 向 量 决定 。 因 此 ,最 
大 间隔 超 平面 w*，x; 十 b* 二 0 完全 由 支持 向 量 决定 ,而 与 剩余 的 观测 样本 无 关 。 
这 时 就 可 以 得 到 如 下 的 最 优 决 策 函 数 或 者 分 类 器 : 


f(x) = sgn(w” 。Xx 十 0 ) = sgn( DaiyiCx 。 ZX) 二 +6") (7-15) 
(| 


Vapnik 把 上 式 称 为 “线性 硬 间隔 支持 向 量 机 ”, 当 样本 线性 不 可 分 时 ,由 于 不 存在 使 
得 分 类 间隔 A 取 正 值 的 超 平面 ,严格 要 求 所 有 样本 被 正确 分 类 的 “ 硬 间隔 ”方法 是 行 不 通 
的 。 换 句 话说 ,必须 适当 松弛 公式 (7-6) 和 公式 (7-7) 中 的 约束 条 件 。 通 过 引入 松弛 变量 
所 宇 0,i,…,n, 可 以 得 到 “软化 "的 新 约束 条 件 : 
ywe Xith) 1—& (7-16) 
显然 当 & 充分 大 时 ,样本 (zx; ,yi) 总 可 以 满足 上 述 约束 条 件 ,如 图 7-4 所 示 。 


但 另 一 方面 ,和 项 p32 与 样本 的 分 类 错误 相关 并 且 体 现 了 经 验 风险 ,必须 限制 它 的 
大 小 。 因 此 ,我 们 得 到 “软化 ”后 的 最 大 间隔 分 类 器 的 优化 问题 : 


minw,s,t, 于 1wl 二 cy 5 (7-17) 
i=1 
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图 7-4 引入 松弛 因子 的 SVM 两 分 类 情形 


yi(w* Xithb) 二 1—& (7-18) 
其 中 , 实 常数 C 二 0 称 为 罚 参数 , 它 在 分 类 器 的 复杂 度 和 经 验 风险 之 间 进 行 权 衡 。 我们 把 
上 述 问题 确定 的 学 习 机 称 为 “线性 软 间隔 支持 向 量 机 ”。 


2. 数据 线性 不 可 分 的 情况 


经 典 非 线性 方法 ,如 神经 网 络 模型 中 ,解决 线性 不 可 分 类 问题 的 一 个 方法 是 利用 多 层 
感知 器 ,其 实质 就 是 将 近似 函数 集 由 简单 线性 指示 函数 扩展 成 由 许多 线性 指示 函数 释 加 
成 的 一 个 更 为 复杂 的 近似 函数 集 , 再 用 S 形 函数 来 近似 指示 函数 中 的 单位 阶 跃 函数 (或 符 
号 函数 ) ,从 而 得 到 使 经 验 风险 极 小 化 的 一 种 容易 操作 的 算法 。 但 是 ,这 种 方法 存在 着 容 
易 陷 入 局 部 极 小 点 ,网 络 结构 设计 依赖 于 先 验 知识 以 及 泛 化 能 力 较 差 等 问题 。 解 决 线 性 
不 可 分 类 问题 的 另 一 个 途径 (支持 向 量 机 算法 ) 是 用 “ 超 曲 面 " 代 替 “ 超 平面 ”, 找 一 个 能 够 
正确 分 类 所 有 观测 样本 的 最 大 间隔 超 曲面 ,如 图 7-5 所 示 。 


图 7-5 SVM 线性 不 可 分 的 情况 


但 是 ,“ 最 大 间隔 超 曲 面 " 是 难以 描述 和 直接 求解 的 。 通 过 引入 由 输入 空间 X 到 某 个 
高 维 空间 五 (一 般 是 Hibert 空间 ) 的 非 线 性 映射 B(z) 二 X 一 及, 能 够 把 中 寻找 非 线性 
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的 “最 大 超 曲面 ?问题 转化 为 在 高 维 空间 互 中 求解 线性 的 “最 大 间隔 超 平面 问题 ,从 而 更 
容易 给 出 具体 的 模型 进行 求解 。 

其 中 ,需要 避免 在 五 中 进行 高 维 的 内 积 运算 @(x;)，@(y;)。 如 果 存 在 输入 空间 中 
定义 的 某 个 核 函数 KCzi,z)), 且 满足 (ziszj) 二 B(xzi;)*@B(yi;), 就 可 以 通过 计算 
K(xzi ,zj) 的 值 而 避免 万 中 的 内 积 运算 ,并 且 不 需要 知道 映射 函数 。 
因此 ,综合 前 面 两 种 处 理 线性 不 可 分 类 问题 的 思想 ,得 到 更 常用 的 * 非 线性 软 间隔 
支持 向 量 机 ”, 简 称 “ 支 持 向 量 机 ”。 它 的 原始 优化 问题 (P) 和 对 偶 优化 问题 (D) 分 别 
如 下 : 


原始 优化 问题 (P) : 
minwo,s, 去 t+c2e (7-19) 
st yw Br) E16, C0,i=1,2,.n 
对 偶 优 化 问题 (D): 
maxe 3。 一 十 罗 Daaiyiyk Cn) (7-20) 


st Dlay=0, Ca>0i= 1,2,%n 
一 1 


求解 对 偶 问 题 的 最 优 解 a* 后 ,支持 向 量 机 的 决策 函数 为 : 


f(x) = sgn(w” 。G@GCxr) 十 0 ) 一 sen Sar CD +6") (7-21) 

同样 根据 KKT 条 件 ,优化 对 偶 优 化 问题 (D) 取 最 优 解 时 应 该 满足 如 下 条 件 : 
oar [yi (we BX)+0" )—1+6}=0, i=1,2,.,n (7-22) 
(C—ar tr =0 (2 


结合 公式 (7-20) 的 约束 条 件 和 公式 (7-22) ,公式 (7-23) ,可 以 推导 出 如 下 重要 结论 : 

(1) 车 a? ==0, 则 有 妈 二 0, 且 对 应 的 样本 zx; 一 定 不 是 支持 向 量 。 

(2) 车 0<a? <C, 则 有 罗 =0 和 yw， 5G5(z) 十 0 ) 一 1, 且 对 应 的 样本 称 为 “ 非 边 
界 支持 向 量 机 ”。 

(3) 车 a? 二 C, 则 有 如 二 0 和 yi(w”，@(zi) 十 b” ) 二 1, 且 对 应 的 样本 称 为 “边界 支持 
向 量 机 ”。 

可 见 , 最 优 解 的 “ 稀 朴 ?性 质 同样 满足 ,支持 向 量 机 的 决策 函数 完全 由 oz 隆 0 的 支 
持 向 量 决定 。 


7.2.4 核 函数 分 类 


对 支持 向 量 机 而 言 , 核 函数 的 构造 和 选择 尤其 重要 。 在 满足 Mercer 条 件 的 情况 下 ， 
核 函 数 可 以 有 多 种 形式 供 选 择 。 目 前 ,在 SVM 理论 研究 与 实际 应 用 中 ,最 常 使 用 的 有 以 
下 4 类 核 函数 : 

(1) 线性 核 函 数 : K(x,z;) 二 x， zx;。 
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(2) 多 项 式 核 函数 : K(x,zi) 二 [(x,xi) 十 1]*,g 是 自然 数 。 此 时 得 到 的 支持 向 量 机 
是 一 个 g 阶 多 项 式 分 类 器 。 


(3) Gauss 径 向 基 核 阴 数 ; KGx,z)=exp (HE | | *).o>0. 得 到 的 支持 向 量 


机 是 一 种 径 向 基 函 数 分 类 器 。 

(4) Sigmoid 核 郴 数 : K(x,z;) 二 tanh(a(x,Zzi) 十 1),a,t 是 常数 ,tanh 是 Sigmoid 
函数 。 

支持 向 量 机 实现 的 其 实 是 一 个 两 层 的 感知 器 神经 网 络 ( 故 又 称 为 “神经 网 络 核 函 
数 ”) , 它 包 含 了 一 个 隐 层 , 隐 层 节点 数 是 由 算法 自动 确定 的 ,而 且 算法 不 存在 困扰 神经 网 
络 的 局 部 极 小 点 的 问题 。 

其 他 形式 的 核 函 数 , 比 如 传 里 叶 级 数 核 函数 、 小 波 核 函数 等 也 都 是 特定 于 具体 应 用 而 
产生 的 优化 算 子 ,应 用 也 较为 广泛 。 不 同 的 核 函 数 所 产生 的 性 能 是 不 同 的 。 对 于 某 一 具 
体 问题 ,如 何 选 择 核 函 数 的 形式 还 没有 一 个 指导 原则 。 即 使 已 经 选 定 了 某 一 类 核 函 数 ,其 
相应 的 参数 (如 多 项 式 核 函 数 的 阶 次 gq、 径 向 基 核 函数 核 半 径 = 等) 也 需要 选择 和 优化 。 
Keerthi 证 明 , 径 向 基 函 数 核 在 适当 选择 参数 时 可 以 代替 多 项 式 核 ,而 且 径 向 基 峭 数 核 可 
以 将 样本 映射 到 一 个 更 高 维 的 空间 ,可 以 处 理 当 类 标签 (Class Labels) 和 特征 之 间 的 关系 
是 非 线性 时 的 样 例 。 另 外 ,由 于 参数 的 个 数 直接 影响 到 模型 选择 的 复杂 性 ,而 径 向 基 核 函 
数 只 有 一 个 待定 参数 o, 与 别 的 核 函 数 相 比 具有 参数 少 的 优点 ,一 般 情况 下 选用 径 向 基 函 
数 核 的 效果 不 会 太 差 。 


7.3 支持 向 量 机 实例 分 析 


将 支持 向 量 机 用 到 成 矿 的 定性 预测 上 。 下 面 介绍 思路 : 成 矿 预测 是 一 项 理论 和 实践 
紧密 结合 的 探索 性 极 强 的 综合 研究 工作 ,预测 理论 和 方法 是 提高 找 矿 效 果 的 首要 条 件 , 传 
统 的 成 矿 预测 模型 如 和 人工 神经 网 络 , 它 作为 高 度 非 线性 动力 系统 ,具有 非 线 性 映射 .容错 
性 好 和 自学 习 适 应 强 等 特征 。 特 别 是 BP 神经 网 络 ,在 遥感 图 像 分 类 与 识别 ,资源 预测 等 
地 学 领域 均 有 广泛 应 用 。 神 经 网 络 的 关键 技术 是 网 络 结构 、 权 值 参 数 及 学 习 规则 的 设计 ， 
但 目前 神经 网 络 的 结构 需要 事先 指定 或 应 用 启发 式 算法 在 训练 过 程 中 寻找 ,并 且 网 络 系 
数 的 调整 和 初始 化 方法 没有 理论 指导 ,训练 过 程 易 于 陷入 局 部 极 小 、 过 学 习 、 收 敛 速 度 慢 。 
SVM 是 一 种 新 兴 的 机 器 学 习 方法 . 它 具 有 强 有 力 的 非 线 性 建 模 能 力 和 良好 的 泛 化 性 能 ， 
能 解决 小 样本 、 非 线性 、 高 维 数 和 局 部 极 小 点 等 实际 问题 。 算 法 最 终 转化 为 二 次 寻 优 问 
题 ,从 理论 上 得 到 全 局 最 优 解 有效 避免 了 局 部 极 值 问题 ,同时 通过 非 线 性 变换 和 核 函 数 
巧妙 解决 了 高 维 数 问题 ,使 得 算法 复杂 度 与 样本 维 数 无 关 , 加 速 了 训练 学 习 速度 ;另外 它 
能 根据 有 限 样本 信息 在 模型 的 复杂 型 和 学 习 能 力 之 间 寻 求 最 佳 折 中 ,保证 其 有 较 好 的 泛 
化 能 力 。 下 面 以 一 个 例子 来 验证 ,算法 流程 如 图 7-6 所 示 。 

第 一 步 : 原始 数据 准备 。 

成 矿 作 用 的 复杂 性 决定 了 成 矿 信 息 往 往 具 有 多 解 性 和 隐 含 性 ,以 云南 某 旧 地 质 采 样 
综合 数据 为 研究 对 象 , 将 基于 SVM 的 模型 引入 地 质数 据 的 处 理 和 解释 。 实 际 资料 表明 ， 
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原始 数据 准备 


| 1 


系统 处 理 输入 数据 执行 SVM 
回归 算法 处 理 数据 输出 


系统 处 理 
图 7-6 算法 流程 图 


该 地 区 银 、 砷 、 钢 , 饮 \ 铜 铅 、 锌 、 汞 组 合 异常 能 够 较 好 地 指示 矿 化 富 集 带 ,选取 此 地 空间 中 
8 个 化 学 元 素 中 具有 代表 性 的 元 素 作为 输入 数据 ,选择 矿 化 程度 作为 输出 。 

第 二 步 : 数据 预 处 理 。 

在 数据 准备 阶段 主要 完成 对 预测 指标 的 选 定 和 已 有 的 历史 数据 资料 的 收集 工作 ,并 
确定 成 矿 因素 的 输入 和 输出 量 。@ 输 入 向 量 xf 的 属性 及 含义 : 建 模 时 对 样本 中 的 因子 进 
行 归 一 化 处 理 (减少 各 个 因子 之 间 的 量 级 差别 ), 使 用 邓 一 下 me 将 样本 归 一 

max(xi)— min(x;) 
化 到 区 间 [0,1],x/ 代 表 Zn 元 素 的 含量 ; 加 对 应 的 输出 Y 为 两 类 ,有 矿 与 无 矿 ,用 1 代表 
有 矿 ,0 代表 无 矿 ,如 表 7-1 所 示 。 


表 7-1 数据 预 处 理 阶段 


标号 Zn Zn 矿 化 (Y) 
1 Ei x 1 
妆 7 zx! 0 
3 zs zs 1 
4 EA zy 1 
5 x io 1 


通过 某 矿 m 的 前 & 矿物 的 历史 数据 来 预测 m 矿物 的 矿 化 程度 , 即 对 下 面 的 函数 进行 
预测 :yw 二 /zm-1 ,Tm-2，……* ,Tm-k)。( 这 其 实 是 一 个 回归 模型 ), 其 过 程 就 是 : 依据 自 变 
量 和 因 变 量 的 历史 统计 资料 进行 计算 ,在 此 基础 上 建立 回归 分 析 方 程 , 即 回归 分 析 预 测 
模型 。 
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第 三 步 : SVM 成 矿 预 测 模型 。 

因为 构造 SVM 的 基础 是 Mercer 定理 ,所 以 建立 支持 向 量 机 的 核 函 数 必须 满足 

Mercer 定理 条 件 。 在 该 例子 中 采用 RBF 核 函数 作为 基本 函数 建立 SVM 回归 模型 。 
RBF 核 函 数 的 形式 为 : K(x,x;) 二 exp (一 y | x 一 x; | *),y 之 0, 在 构建 SVM 回归 模 

型 的 过 程 中 ,C、yY 和 e 这 三 个 参数 需 自主 决定 .C 是 惩罚 常数 ,7 为 高 斯 核 函 数 的 参数 ,e 

为 不 敏感 区 域 的 宽度 ,模型 参数 选取 使 用 交叉 验证 方法 ,利用 Libsvm 库 文件 实现 参数 的 


选取 。 当 选取 合适 的 C、Y 和 e 三 个 参数 后 ,对 SVM 模型 进行 训练 样本 训练 和 预测 ,按理 
论 给 出 表 7-2。 
表 7-2 建立 SVM 成 矿 预测 模型 阶段 
标 号 实际 值 实际 值 SVM 预测 什 
1 Xl Xe Ys 
区 Xz X7 Y7 
3 Xs Xs Ys 
4 X, Xs Y, 
二 Xs Xi Yo 


Xi,Yi(i 二 1,2,3,4,5,6,7,8,9,10) 分 别 是 训练 样本 的 实际 值 (标准 值 ) 和 待 测 
样本 的 SVM 预测 值 (经 过 分 类 器 输出 的 值 )。X;,Y; 均 是 Zn 元 素 的 含量 ,只 不 过 前 
者 是 标准 值 ,后 者 是 待 测 样本 的 SVM 预测 值 ,此 处 用 了 10 个 样本 ,本 表 一 来 是 可 以 
看 出 分 类 器 的 预测 效果 ,二 来 是 可 以 通过 预测 值 判断 该 样本 是 属于 有 矿 的 一 类 还 是 
无 矿 的 一 类 。 

由 于 SVM 的 源 代码 过 于 庞大 , 受 篇 幅 限 制 在 此 不 具体 列举 ,读者 可 登陆 http:// 


www. csie. ntu, edu. tw/~cjlin/libsvm/ 自 行 下 载 。 


7.4 支持 向 量 机 的 特点 及 应 用 
7.4.1 支持 向 量 机 的 特点 


SVM 有 以 下 主要 优点 : 

(1) 非 线性 映射 是 SVM 方法 的 理论 基础 ,SVM 利用 内 积 核 函数 代替 向 高 维 空间 的 
非 线性 映射 。 

(2) 对 特征 空间 划分 的 最 优 超 平面 是 SVM 的 目标 ,最 大 化 分 类 边际 的 思想 是 SVM 
方法 的 核心 。 

(3) 支持 向 量 是 SVM 的 训练 结果 .在 SVM 分 类 决策 中 起 决定 作用 的 是 支持 向 量 。 

(4) SVM 是 一 种 有 坚实 理论 基础 的 .新 颖 的 小 样本 学 习 方法 。 它 基本 上 不 涉及 概率 
测度 及 大 数 定律 等 ,因此 不 同 于 现 有 的 统计 方法 。 从 本 质 上 看 , 它 避 开 了 从 归纳 到 演绎 的 
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传统 过 程 ,实现 了 高 效 的 从 训练 样本 到 预报 样本 的 “ 转 导 推 理 ”, 大 大 简化 了 通常 的 分 类 和 
回归 等 问题 。 

(5) SVM 的 最 终 决策 函数 只 由 少数 的 支持 向 量 确定 ,计算 的 复杂 性 取决 于 支持 向 量 
的 数目 ,而 不 是 样本 空间 的 维 数 ,这 在 某 种 意义 上 避免 了 “ 维 数 灾难 ”。 

(6) 少数 支持 向 量 决 定 了 最 终结 果 , 这 不 但 可 以 帮助 我 们 抓 住 关键 样本 “剔除 ”大量 
元 余 样本 ,而 且 注 定 了 该 方法 不 但 算法 简单 ,而 且 具 有 较 好 的 “ 鲁 棒 "性 。 这 种 “和 鲁 棒 "性 主 
要 体现 在 : 

。 增 、 删 非 支 持 向 量 样本 对 模型 没有 影响 ; 

。 支持 向 量 样本 集 具有 一 定 的 鲁 棒 性 ; 

。 有 些 成 功 的 应 用 中 ,SVM 方法 对 核 的 选取 不 敏感 。 

两 个 不 足 是 : 

(1) SVM 算法 对 大 规模 训练 样本 难以 实施 。 

由 于 SVM 是 借助 二 次 规划 来 求解 支持 向 量 的 ,而 求解 二 次 规划 将 涉及 m 阶 和 矩阵 的 
计算 Gm 为 样本 的 个 数 ), 当 m 数目 很 大 时 ,该 矩阵 的 存储 和 计算 将 耗费 大 量 的 机 器 内 存 
和 运算 时 间 。 针 对 以 上 问题 的 主要 改进 有 J. Platt 的 SMO 算法、T. Joachims 的 SVM、 
C. J].C.， Burges 等 的 PCGC , 张 学 工 的 CSVM 以 及 O. L. Mangasarian 等 的 SOR 算法 。 

(2) 用 SVM 解决 多 分 类 问题 存在 困难 。 

经 典 的 支持 向 量 机 算法 只 给 出 了 二 类 分 类 的 算法 ,而 在 数据 挖掘 的 实际 应 用 中 ,一 般 
要 解决 多 类 的 分 类 问题 。 可 以 通过 多 个 二 类 支持 向 量 机 的 组 合 来 解决 。 主 要 有 一 对 多 组 
合 模 式 ,一 对 一 组 合 模式 和 SVM 决策 树 ;再 就 是 通过 构造 多 个 分 类 器 的 组 合 来 解决 。 主 
要 原理 是 克服 SVM 固有 的 缺点 ,结合 其 他 算法 的 优势 ,解决 多 类 问题 的 分 类 精度 ,如 与 
粗 集 理论 结合 ,形成 一 种 优势 互补 的 多 类 问题 的 组 合 分 类 器 。 


7.4.2 支持 向 量 机 的 应 用 


SVM 方法 在 理论 上 具有 突出 的 优势 ,贝尔 实验 室 率先 对 美国 邮政 手写 数字 库 识别 研 
究 方面 应 用 了 SVM 方法 ,取得 了 较 大 的 成 功 。 在 随后 的 近 几 年 内 ,有 关 SVM 的 应 用 研 
究 得 到 了 很 多 领域 的 学 者 的 重视 ,在 人 脸 检 测 、 验 证 和 识别 .说 话 人 /语音 识别 ,文字 /手写 
体 识 别 、 图 像 处 理 及 其 他 应 用 研究 等 方面 取得 了 大 量 的 研究 成 果 , 从 最 初 的 简单 模式 输入 
的 直接 SVM 方法 研究 ,进入 多 种 方法 取长补短 的 联合 应 用 研究 ,对 SVM 方法 也 有 了 很 
多 改进 。 


1. 车 辆 行人 检测 


由 于 人 体 是 一 个 非 刚 性 的 目标 .并 在 尺寸 .形状 、 颜 色 和 纹理 机 构 上 有 一 定 程 度 的 可 
变性 。 行 人 检测 主要 是 基于 小 波 模 板 概 念 ,按照 图 像 中 小 波 相 关系 数 子 集 定义 目标 形状 
的 小 波 模板 。 系 统 首先 对 图 像 中 每 个 特定 大 小 的 窗口 以 及 该 窗口 进行 一 定 范围 的 比例 缩 
放 得 到 的 窗口 进行 Harr 小 波 变 换 ,然后 利用 支持 向 量 机 检测 变换 的 结果 是 否 可 以 与 小 
波 模 板 匹 配 , 如 果 匹 配 成 功 则 认为 检测 到 一 个 行人 。 
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2. 图 像 中 的 文本 定位 


将 支持 向 量 机 (SVM) 用 于 分 析 图 像 中 文本 的 纹理 特性 。 不 需要 专门 提取 纹理 特征 ， 
而 是 直接 将 像素 的 灰 度 值 作为 支持 向 量 机 的 输入 ,经 支持 向 量 机 处 理 后 输出 分 类 结果 ( 即 
文本 或 非 文本 ) ;然后 再 通过 消除 噪声 和 合并 文字 区 域 就 可 得 到 定位 结果 。 支 持 向 量 机 对 
于 文本 定位 有 很 好 的 鲁 棒 性 ,并 且 可 在 有 限 的 样本 中 进行 训练 。 


3. P2P 流量 识别 


P2P 流量 识别 问题 本 质 上 就 是 一 个 分 类 问题 ,将 未 知 流量 粗 分 为 P2P 和 non-P2P 应 
用 ,属于 二 值 分 类 ,将 未 知 流量 细 分 为 各 个 具体 P2P 应 用 ,属于 多 值 分 类 。 因 此 支持 向 量 
机 被 自然 地 应 用 到 P2P 流量 分 类 问题 。 


7.5 小 结 


本 章 介 绍 了 在 统计 学 习 理论 基础 之 上 发 展 起 来 的 SVM 算法 。 重 点 剖析 了 SVM 原 
理 ,包括 支持 向 量 机 核心 理论 .最 大 间隔 分 类 超 平面 .支持 向 量 机 、 核 函数 分 类 。 然 后 举 出 
一 个 将 支持 向 量 机 用 到 成 矿 的 定性 预测 中 的 实例 ,并 分 析 了 一 个 具体 的 SVM 源 程序 ,最 
后 介绍 了 支持 向 量 机 算法 的 特点 以 及 应 用 。 


思考 题 


. 简 述 一 致 性 的 定义 。 

. 简 述 最 大 间隔 分 类 超 平面 的 定义 。 

. 支持 向 量 机 的 关键 技术 是 什么 ? 

. 支持 向 量 机 的 优 缺 点 是 什么 ? 

. 支持 向 量 机 的 基本 思想 是 什么 ?请 举例 说 明 支 持 向 量 机 的 应 用 。 


an 性 
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第 8 章 K-means 聚 类 算法 
8.1 简介 


K-means 聚 类 算法 由 J. B. MacQueen 在 1967 年 提出 是 最 为 经 典 的 也 是 使 用 最 为 广 
泛 的 一 种 基于 划分 的 聚 类 算法 , 它 属 于 基于 距离 的 聚 类 算法 。 所 谓 的 基于 上 距离 的 聚 类 算 
法 是 指 采用 距离 作为 相似 性 量度 的 评价 指标 ,也 就 是 说 , 当 两 个 对 象 离 得 近 时 ,两 者 之 间 
的 距离 比较 小 ,那么 它们 之 间 的 相似 性 就 比较 大 。 这 类 算法 通常 是 由 距离 比较 相近 的 对 
象 组 成 秘 ,把 得 到 的 紧凑 而 且 独 立 的 簇 作为 最 终 目 标 ,因此 将 这 类 算法 称 为 基于 距离 的 聚 
类 算法 。K-means 聚 类 算法 就 是 其 中 比较 经 典 的 一 种 算法 。 开 -means 聚 类 是 数据 挖掘 
的 重要 分 支 ,同时 也 是 实际 应 用 中 最 常用 的 聚 类 算法 之 一 。 


8.2 K-means 聚 类 算法 原理 


K-means 聚 类 算法 的 最 终 目 标 就 是 根据 输入 参数 KK( 这 里 的 天 表示 需要 将 数据 对 象 
聚 成 几 簇 ) ,把 数据 对 象 分 成 K 个 徐 。 该 算法 的 基本 思想 是 : 首先 ,指定 需要 划分 的 簇 的 
个 数 天 值 ; 然 后 ,随机 地 选择 KK 个 初始 数据 对 象 点 作为 初始 的 聚 类 中 心 ;再 次 ,计算 其 余 
的 各 个 数据 对 象 到 这 个 初始 聚 类 中 心 的 距离 (这 里 一 般 采 用 距离 作为 相似 性 度量 ) ,把 
数据 对 象 划 归 到 距离 它 最 近 的 那个 中 心 所 处 的 簇 类 中 ;最 后 ,调整 新 类 并 且 重 新 计算 出 新 
类 的 中 心 ,如 果 两 次 计算 出 来 的 聚 类 中 心 未 曾 发 生 任何 变化 ,就 可 以 说 明 数据 对 象 的 调整 
已 经 结束 ,也 就 是 说 聚 类 采用 的 准则 函数 (这 里 采用 的 是 误差 平方 和 的 准则 函数 ) 是 收敛 
的 ,表示 算法 结束 。 

K-means 聚 类 算法 属于 一 种 动态 聚 类 算法 ,也 称 为 逐步 聚 类 法 ,该 算法 的 一 个 比较 
显著 的 特点 就 是 迭代 过 程 ,每 次 都 要 考察 对 每 个 样本 数据 的 分 类 正确 与 否 , 如 果 不 正确 ， 
就 要 进行 调整 。 当 调整 完全 部 的 数据 对 象 之 后 .再 来 修改 中 心 , 最 后 进入 下 一 次 迭代 的 过 
程 中 。 若 在 一 个 迭代 中 ,所 有 的 数据 对 象 都 已 经 被 正确 地 分 类 ,那么 就 不 会 有 调整 , 聚 类 
中 心 也 不 会 改变 , 聚 类 准则 函数 也 表明 已 经 收敛 ,那么 该 算法 就 成 功 结束 。 

传统 的 K-means 算法 的 基本 工作 过 程 是 : 首先 随机 选择 K 个 数据 作为 初始 中 心 , 计 
算 各 个 数据 到 所 选 出 来 的 各 个 中 心 的 距离 ,将 数据 对 象 指派 到 最 近 的 簇 中 。 然 后 计算 每 
个 簇 的 均值 ,循环 往复 执行 ,直到 满足 聚 类 准则 函数 收敛 为 止 ,其 具体 的 工作 步 又 如 下 。 

输入 : 初始 数据 集 DATA 和 簇 的 数目 K。 

输出 : 玉 个 能 ,满足 平方 误差 准则 函数 收敛。 

(1) 任意 选择 K 个 数据 对 象 作为 初始 聚 类 中 心 。 

(2) Repeat。 

(3) 根据 簇 中 对 象 的 平均 值 , 将 每 个 对 象 赋 给 最 类 似 的 簇 。 
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(4) 更 新 篮 的 平均 值 , 即 计算 每 个 对 象 簇 中 对 象 的 平均 值 。 
(5) 计算 聚 类 准则 函数 正 。 

(6) Until 准则 函数 已 值 不 再 进行 变化 。 

K-means 算法 的 工作 流程 如 图 8-1 所 示 。 


开始 


输入 聚 类 的 个 数 K 和 数据 样本 n 


初始 化 K 个 聚 类 中 心 


1 
分 配 各 个 数据 对 象 到 距离 最 近 的 类 中 


重新 计算 各 个 聚 类 的 中 心 (均值 ) 


输出 聚 类 结果 
图 8-1 K-means 算法 的 工作 流程 


K-means 算法 的 工作 框架 如 下 : 

(1) 给 出 nn 个 数据 样本 , 令 1 王 1, 随机 选择 K 个 初始 聚 类 中 心 2,(1),j 二 1,2,…,K。 

(2) 求解 每 个 数据 样本 与 初始 聚 类 中 心 的 距离 DLzxi,Zj(1)],i==1,2,…,n;j 二 1， 
2,…,KK, 若 满足 D[zxi,Z;(1)]= 二 min{D[zi,Z;(Dj],i==1,2,… yn) ,那么 zx; € wh。 


(3) 令 TI 一 [十 1, 计 算 新 聚 类 中 心 Z)(2) 一 Dz 12 以 及 误差 平方 和 
i=1 


K 二 
准则 函数 J。 的 值 : J.(2) = >》 > xP 一 2Z,(2) 1 ?。 


j=1 k=1 

(4) 判断 : 如 果 |J.(T 十 1) 一 J.( 中 |<&, 就 表示 算法 结束 ;反之 ,J 二 1 十 1, 则 重新 返回 
第 (2) 步 执行 。 

从 该 算法 的 框架 能 够 得 出 : K-means 算法 的 特点 就 是 调整 一 个 数据 样本 后 就 修改 一 
次 聚 类 中 心 以 及 聚 类 准则 函数 J. 的 值 , 当 个 数据 样本 完全 被 调整 完 后 表示 一 次 迭代 完 
成 ,这 样 就 会 得 到 新 的 J.。 和 聚 类 中 心 的 值 。 若 在 一 次 迭代 完成 之 后 ,J 的 值 没 有 发 生变 
化 , 则 表明 该 算法 已 经 收敛 ,在 迭代 过 程 中 J. 值 逐 渐 缩小 ,直到 达到 最 小 值 为 止 。 该 算法 
的 本 质 是 把 每 一 个 样本 点 划分 到 离 它 最 近 的 聚 类 中 心 所 在 的 类 。 

K-means 聚 类 算法 的 本 质 是 一 个 最 优化 求解 的 问题 , 目标 函数 虽然 有 很 多 局 部 最 小 
值 点 ,但 是 只 有 一 个 全 局 最 小 值 点 。 之 所 以 只 有 一 个 全 局 最 小 值 点 是 由 于 目标 函数 总 是 
按照 误差 平方 准则 函数 变 小 的 轨迹 来 进行 查找 的 。 

K-means 算法 对 聚 类 中 心 采 取 的 是 迭代 更 新 的 方法 ,根据 开 个 聚 类 中 心 ,将 周围 
的 点 划分 成 个 簇 ;在 每 一 次 的 迭代 中 将 重新 计算 的 每 个 簇 的 质心 , 即 簇 中 所 有 点 的 
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均值 ,作为 下 一 次 迭代 的 参照 点 。 也 就 是 说 ,每 一 次 的 迭代 都 会 使 选取 的 参照 点 越 来 
越 接 近 簇 的 几何 中 心 也 就 是 簇 心 ,所 以 如 果 目 标 函 数 越 来 越 小 ,那么 聚 类 的 效果 也 会 
越 来 越 好 。 


8.3 K-means 聚 类 算法 实例 分 析 


【 例 8. 1】 利用 K-means 方 法 ,对 A~L 12 个 数据 分 成 两 类 。 初 始 的 随机 点 指定 为 
M1(20,60) ,M2(80,80)。 列 出 每 一 次 分 类 结果 及 每 一 类 中 的 平均 值 (中 心 点 ), 如 表 8-1 
所 示 。 


表 8-1 A~L 12 个 数据 


坐标 点 Xx 第 点 M2 
A 2.273 68.367 80 80 
B 27.89 83.127 
C 30.519 61. 07 
D 62.049 69.343 
E 29.263 68.748 
F 62.657 90. 094 
G 75.735 62.761 
H 24.344 43. 816 
I 17.667 86.765 
J 68.816 76. 874 
K 69.076 57.829 
L 85.691 88. 114 
1) 第 一 次 分 类 


(1) 点 到 M1 的 距离 。 

在 单元 格 F2 中 输入 函数 “二 SQRT(SUMSQ((B2 一 D$2), (C2 一 E$2)))”, 计 算出 
点 A 到 点 M1 的 距离 后 ,将 F2 以 下 的 单元 格 下 拉 依 次 得 到 其 他 点 到 点 M1 的 距离 。 

(2) 点 到 M2 的 距离 。 

在 单元 格 I2 中 输入 函数 “二 SQRT(SUMSQ((B2 一 G$2),(C2 一 H$2)))”, 计 算出 
点 A 到 点 M2 的 距离 后 .将 I2 以 下 的 单元 格 下 拉 依次 得 到 其 他 点 到 点 M2 的 距离 。 

点 到 MI1 的 距离 与 点 到 M2 的 距离 比较 并 排序 : 在 单元 格 J]2 中 输入 函数 “=IF(F2> 一 
I2,"M2" ,"M1")” 并 按 升 序 排列 ,如 表 8-2 所 示 。 
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表 8-2 第 一 次 分 类 排序 结果 


坐标 点 Xx 得 点 到 M1 的 距离 点 到 M2 的 距离 | 归属 于 MI/M2 点 
A 2.273 68.367 .435 839 03 66.384 276 69 MI1 
B 27. 89 83.127 .435 839 03 52.203 737 69 MI 
C 30. 519 61.07 .573 280 52 52.978 432 04 MI 
E 29. 263 68.748 .740 9055 51.969 709 19 MI 
H 24. 344 43.816 .756 855 07 66.384 276 69 MI1 
I 17.667 86.765 6. 866 486 82 62.699 028 01 MI] 
D 62.049 69.343 .074 470 98 20.876 064 04 M2 
F 62.657 90.094 204 104 1 20.066 601 23 M2 
G 75.735 62.761 .803 345 29 17.758 754 07 M2 

68. 816 76.874 .650 108 73 11.612 653 96 M2 
K 69.076 57.829 9. 123 996 35 24.716 128 68 M2 
L 85. 691 88.114 9.910 826 252 M2 


M1 类 中 心 MI 点 


第 一 次 分 类 结果 如 表 8-3 所 示 。 
表 8-3 第 一 次 分 类 结果 


.76. 


6 


68.648 833 33 70. 670 67 


绘制 的 散 点 图 如 图 8-2 所 示 。 
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2 第 一 次 分 类 结果 
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2) 第 二 次 分 类 
使 用 AVERAGE 函数 求 第 一 次 分 类 后 各 类 的 质心 ML 和 M2 。 
依据 第 一 次 分 类 时 的 步骤 ,得 到 了 第 二 次 分 类 的 结果 ,如 表 8-4 和 表 8-5 所 示 。 


表 8-4 第 二 次 分 类 排序 结果 


坐标 点 Xx Y 到 ML 点 的 距离 到 M2 点 的 距离 ML VANM2 
A 2. 273 68.367 9.721 683 83 68. 643 327 7 MI1 
B 27. 89 83. 127 5. 633 166 91 43.708 448 2 MI] 
C 30.519 61.07 .407 759 09 42. 234 403 73 MI] 
E 29. 263 68.748 .271 006 326 41.761 037 09 MI] 
H 24. 344 43.816 .943 901 03 55. 384 792 88 MI] 
I 17.667 86.765 .625 440 57 54. 479 757 4 MI 
D 62.049 69.343 .062 344 48 9. 880 542 012 M2 
F 62.657 90.094 5.972 633 71 17. 827 482 08 M2 
他 75.735 62.761 12.4817379 M2 
J 68. 816 76. 874 3. 279 619 816 M2 
K 69.076 57.829 16. 417 799 12 M2 
I 85. 691 88.114 20. 495 575 06 M2 


B 83. 127 62.657 90. 094 
C 61. 07 75.735 62. 761 
E | 29.263 68. 748 68.816 | 76. 874 
H 43. 816 69.076 57. 829 


86. 765 85.691 88. 114 


绘制 散 点 如 图 8-3 所 示 。 

根据 以 上 分 析 过 程 , 可 以 明显 看 出 第 二 次 聚 类 结果 和 第 一 次 聚 类 结果 没有 发 生变 化 ， 
由 此 可 以 确定 聚 类 结束 。 

【 例 8.2】 设 有 数据 样本 集合 为 X= 二 {1,5.10,9.26,32,16,21,14}) ,将 X 聚 为 3 类 ， 


即 K==3。 随 即 选 择 前 三 个 数值 为 初始 的 聚 类 中 心 , 即 zi 二 1,zs 二 5,zs 二 10( 采 用 欧 氏 距 
离 进行 计算 )。 

第 一 次 迭代 : 按照 三 个 聚 类 中 心 将 样本 集合 分 为 三 个 簇 {1}, {5),{10,9,26,32,16， 
21,14}。 对 于 产生 的 簇 分 别 计算 平均 值 ,得 到 平均 值 点 填 入 第 二 步 的 = ,= ,zs 栏 中 。 
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100 


法 4 系列 1 


0 20 40 60 80 100 
图 8-3 第 二 次 分 类 结果 


第 二 次 迭代 : 通过 平均 值 调整 对 象 所 在 的 入 ,重新 聚 类 。 即 将 所 有 点 按 距 离 平 均值 
点 1,5,18.3 最 近 的 原则 重新 分 配 , 得 到 三 个 新 的 簇 {1)}, {5,10,9)}, {26,32,16,21,14)。 
填 和 人 第 二 步 的 C1,C; ,Cs 栏 中 。 重 新 计算 簇 平 均值 点 ,得 到 新 的 平均 值 点 为 1,8,21.8。 
以 此 类 推 , 第 五 次 迭代 时 ,得 到 的 三 个 簇 与 第 四 次 迭代 的 结果 相同 ,而 且 准 则 函数 记 
收敛 ,迭代 结束 ,结果 如 表 8-6 所 示 。 
表 8-6 ”Kmeans 聚 类 算法 


CG E 


{10,9,26,32,16,21,14} 433. 43 
{126,32,16,21,14} 230.8 
{26,32,16,21} 181.76 


4 1 9.5 23. ,5 {10,9.14,16} {26 ,32,21} 101.43 


5 3 本 26. 3 5 {10,9.14,16} {26 ,32,21} 101. 43 


8.4 天 -means 聚 类 算法 源 程序 分 析 


#include< iostream> 
指 nclude<fstream> 
#include<cmath> 
#include<cstdlib> 
#include<ctime> 
using namespace std; 
// 数 据 对 象 , size 为 维度 
struct Vector 
{ 
double* coords; // 所 有 维度 的 数值 
int size; 


Vector(): coords(0), size(0){} 
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Vector (int d){ create (d); } 
// 创 建 维度 为 a 的 数据 ,并 将 各 维度 初始 化 为 0 
void create (int d) 
size=d; 
coords=new double[size]; 
for (int i=0; i<size; i++) 
coords [i]=0.0; 
} 
// 复 制 一 个 数据 
void copy(const Vectorg other) 
‘ 
if (size==0) 


create (other.size); 


for (int i=0; i<size; i++) 
coords [i]=other.coords [i]; 
l 
// 将 另 一 个 数据 的 各 个 维度 加 在 自身 的 维度 上 
void add (const Vectorg& other) 
{ 
for (int i=0; i<size; i++) 
coords [i]+=other.coords [i]; 
} 
// 释 放 数 值 的 空间 
~Vector () 
{ 
if (coords) 
delete[] coords; 
size=0; 
} 
}; 
// 聚 类 结构 
struct Cluster 
{ 
Vector center; 
int* member; 
int memberNum; 


}; 


//KMeans 算法 类 
class KMeans 


1 


private: 


// 如 果 原 来 没有 数据 ,就 创建 


// 中 心 /引力 数据 对 象 
// 该 聚 类 中 各 个 数据 的 索引 
// 数 据 的 数量 
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int num; // 输 入 数据 的 数量 


int dimen; // 数 据 的 维 数 
int clusterNum; // 数 据 的 聚 类 数 
Vector * observations; // 所 有 数据 存放 在 这 个 数组 中 
Cluster x clusters7 // 聚 类 数组 
int passNum; // 和 迭代 的 次 数 
public: 
// 初 始 化 参数 和 动态 分 配 内 存 
KMeans (int n, int d, int k, Vector * ob) 
: num(n) 
， dimen (d) 


clusterNum (k) 


observations (ob) 


Clusters (new Cluster[k]) 


for (int x=0; x<clusterNum; x++) 
clusters [x] .member=new int[n]; 
} 
// 释 放 内 存 
~KMeans () 
{ 
for (int k=0; k<clusterNum; k++) 
delete [] clusters [k] .member; 


delete [] clusters; 


void initClusters () 
{ 
// 由 于 初始 数据 中 心 是 任意 的 
// 所 以 直接 把 前 个 数据 作为 Numclusters 个 聚 类 的 数据 中 心 
for (int i=0; i<clusterNum; i++) 
{ 
clusters[i] .member[0]=i7 // 记 录 这 个 数据 的 索引 到 第 i 个 聚 类 中 
clusters [i] .center.copy (observations[i]); // 把 这 个 数据 作为 数据 中 心 


} 


void run () 
二 

bool converged=false; // 是 否 收敛 

passNum=0; 

while (!converged && passNum< 999) // 如 果 没 有 收 伍 , 就 再 次 迭代 

// 正 常情 况 下 总 是 会 收敛,PassNum< 999 是 以 防 万 一 
{ 
distribute(); // 将 数据 分 配 到 诊 中 心 最 近 的 聚 类 


converged=recalculateCenters () 7 
// 计 算 新 的 聚 类 中 心 , 如 果 计 算 结果 和 上 次 相同 ,就 认为 已 经 收敛 
passNumt +; 
上 
} 
void distribute () 
‘ 
// 将 上 次 记录 的 该 聚 类 中 的 数据 数量 清 零 ,重新 开始 分 配 数据 
for (int k=0; k<clusterNum; k++) 
getCluster (k) .memberNum=07 
// 找 出 每 个 数据 最 近 的 聚 类 数据 中 心 , 并 将 该 数据 分 配 到 该 聚 类 
for (int i=0; i<num; i++) 
{ 
Clusterg cluster=getCluster (closestCluster (i)); 
// 找 出 最 接近 的 其 中 心 的 聚 类 
int memID=cluster .memberNum; 
//memberNum 是 当前 记录 的 数据 数量 ,也 是 新 加 入 的 数据 在 member 数组 中 的 位 置 
cluster.member [memID]=i; // 将 数据 索引 加 入 member 数组 
cluster.memberNum++; // 聚 类 中 的 数据 数量 加 1 


} 
int closestCluster (int id) 
{ 
int clusterID=0; // 暂 时 假定 索引 为 id 的 数据 最 接近 第 一 个 聚 类 
double minDist=eucNorm (id, 0); 
// 计 算 到 第 一 个 聚 类 中 心 的 误差 (本 程序 中 用 距离 的 平方 和 作为 误差 ) 
// 计 算 其 他 聚 类 中 心 到 数据 的 误差 , 找 出 其 中 最 小 的 一 个 
for (int k=1; k<clusterNum; k++) 
《 
double d=eucNorm (id, k); 
if (d<minDist) // 如 果 小 于 前 最 小 值 , 就 将 改 值 作为 当前 最 小 值 
{ 
minDist=d; 


clusterID=k; 


return clusterID; 
} 
// 索 引 为 id 的 数据 到 第 kx 个 聚 类 中 心 的 误差 (距离 的 平方 ) 
double eucNorm (int id, int k) 
{ 
Vectorg observ=observations[id]; 
Vectorg center=clusters[k] .center; 


double sumOfSquare=0; 
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据 挖 打 


// 将 每 个 维度 的 差 的 平方 相 加 ,得 到 距离 的 平方 
for (int d=0; d<dimen; d++) 
t 
double dist=observ.coords[d]-center.coords[d]; 
// 在 一 个 维度 上 中 心 到 数据 的 距离 
SumOfSquare+=distx dist; 
return sumOfSquare; 
// 重 新 计算 聚 类 中 心 
bool recalculateCenters () 


bool converged=true; 


for (int k=0; k<clusterNum; k++) 
{ 
Clusterg cluster=getCluster (Kk); 
Vector average (dimen); // 初 始 的 数据 平均 值 
// 统 计 这 个 聚 类 中 数据 的 总 和 (因为 在 构造 函数 中 会 将 各 维 数值 清 零 ,所 以 可 以 直接 加 ) 
for (int m=0; m< cluster.memberNum; mt++) 
average.add (observations [cluster .member [m] ]); 
// 计 算 各 个 维度 的 评价 值 
for (int d=0; d<dimen; d++) 
有 
average.coords [dl] /=cluster .memberNum; 
if (average .coords [d] !=cluster.center.coords [d] ) 
// 如 果 和 原来 的 聚 类 中 心 不 同 
// 表 示 没 有 收敛 


converged=false; 
cluster .center .coords [d]=average.coords[d]; 


// 用 这 次 的 平均 值 作 为 新 的 聚 类 中 心 


return converged; 
} 
// 获 得 第 id 个 聚 类 
Clusterg getCluster (int id) 
{ 
return clusters [id]; 
} 
] 
// 打 印 一 个 数据 
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void printVector (ostreamg& output, const Vectorg v) 


{ 


} 


forl(int i=0; i<v.size; i++) 
. 
if (1 (=0) 
output<<","; 


output<<v.coords[i]; 


void partitionObservations (istreamg input) 


{ 


// 从 input 输入 中 获取 数据 
int n, dimen, k; 
// 文 本 文件 中 头 三 个 数据 分 别 是 数据 数量 (n) ,数据 维度 (dimen) 和 聚 类 数量 (k) 
input>>n>>dimen>>k; 
// 创 建 存储 数据 的 数值 
Vector* obs=new Vector[n]; 
// 将 数据 读 入 数组 
for(int i=0; i<n; i++) 
{ 
obs [i] .create (dimen); // 创 建 数 据 
// 依 次 读 入 各 个 维度 的 数值 
for (int d=0; d<dimen; d++) 
t 


input>>obs [i] .coords[d]; 


} 

// 建 立 KMeans 算法 类 实例 

KMeans kmeans (n, dimen, k, obs); 

kmeans.initClusters (); // 初 始 化 
kmeans. run(); // 执 行 算法 


// 输 出 聚 类 数据 ,如 果 和 希望 输出 到 文件 中 
// 将 后 面 的 output 的 定义 改 为 下 面 的 形式 即 可 
//ofstream output ("result.txt"); 
ostreamg& output=cout; 

forl(int c=0; c<k; c++) 

{ 


Clusterg cluster=kmeans.getCluster (c); 


output<<"---- 第 " << (c+1)<<" 个 聚 类 ----\n"; ”// 显 示 第 c 个 聚 类 
output<<" 聚 类 中 心 


printVector (output, cluster.center); 
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for (int m=0; m< cluster.memberNum; m++) 

{ 
int id=cluster .member [m]; 
printVector (output, obs[id]); 
output<<"\n"; 

} 

output<<endl; 


delete[] obs; 
} 
int main () 


{ 


const char * fileName="observations 


ifstream obIn (fileName); 
if (obIn.is open()) 
partitionObservations (obIn); 
else 
cout<<"open "<<fileName<<" is fail!"<<endl; 


return 0; 


结果 分 析 : 运行 
3.05310.035 胡 人 5 


果 如 图 8-4 所 示 。 共 有 9 个 数据 ,数据 的 维度 
本 


一 1.0)》 (5.11.5,2. 


3), (10.5,12.6,10.8)， 


11.0), (4.2,5.3 9.8), (5.4,1.6,8.7), (—1.0,—2.1,—0.9), (0.5,0.3,0, 


标 为 输出 4 满足 平方 误 则 函数 收敛 。 首 先 程 序 
初始 聚 类 中 心 ,计算 每 个 剩余 对 象 到 4 个 初始 聚 类 中 心 点 的 距 
最 近 的 中 心 点 所 表示 的 簇 ,得 到 中 心 点 的 分 布 情况 。 然 后 程序 
个 对 象 复 中 对 象 的 平均 值 ,得 到 新 的 聚 类 中 心 ,同时 计算 误 


中 


选择 4 个 数据 对 象 作 为 
剩余 对 象 归 类 tz 
更 新 秘 的 平均 值 , 即 计 算 每 


方 和 准则 函数 的 值 ,判断 


是 否 收敛 ,再 将 数据 对 象 指派 到 最 近 的 簇 中 ,如 此 反复 迭代 ,最 终 准 则 函数 值 不 再 进行 变 


化 ,得 到 4 个 聚 类 如 下 : 


“DA\Program Files\Microsoft Visual Studio\MyProjects\8_4 Kmeans\Debug\8_4 Kmeans.exe™ 


图 8-4 程序 输出 的 结果 
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第 一 个 聚 类 。 
聚 类 中 心 为 (3.75,2.3,9.35) ,划分 到 聚 类 中 的 数据 为 (2.1,3,10),(5.4,1.6,8.7)。 
第 二 个 聚 类 。 
聚 类 中 心 为 (4.1,5.25, 一 5.4) ,划分 到 聚 类 中 的 数据 为 (4,.5.2, 一 1),(4.2.5.3, 一 9.8)。 
第 三 个 聚 类 。 


聚 类 中 心 为 (1.533 33, 一 0.1,0.6), 划 分 到 聚 类 中 的 数据 为 (5.1,1.5,2.3),( 一 1， 
—2.1,—0..9);(0. 5;0. 3,0.4)。 

第 四 个 聚 类 。 

聚 类 中 心 为 (11.3,11.75,10.9) ,划分 到 聚 类 中 的 数据 为 (10.5,12.6,10.8),(12.1， 
i09711y, 


8.5 K-means 聚 类 算法 的 特点 及 应 用 
8.5.1 K-means 聚 类 算法 的 特点 


1. 优点 


(1) K-means 聚 类 算法 是 解决 聚 类 问题 的 一 种 经 典 算 法 ,算法 简单 .快速 。 

(2) 对 处 理 大 数据 集 , 该 算法 是 相对 可 伸缩 的 和 高 效率 的 ,因为 它 的 复杂 度 大 约 是 
OnKz) ,其 中 是 所 有 对 象 的 数目 ;K 是 簇 的 数目 ;t 是 迭代 的 次 数 ,通常 二 二 n。 这 个 
算法 经 常 以 局 部 最 优 结束 。 

(3) 算法 尝试 找 出 使 平方 误差 函数 值 最 小 的 个 划分 。 当 簇 是 密集 的 ,球状 或 团 状 
的 ,而 簇 与 簇 之 间 的 区 别 明显 时 , 它 的 聚 类 效果 较 好 。 


2. 缺点 


(1) K-means 聚 类 算法 只 有 在 得 的 平均 值 被 定义 的 情况 下 才能 使 用 ,不 适用 于 某 些 
应 用 ,如 涉及 有 分 类 属性 的 数据 不 适用 。 

(2) 要 求 用 户 必须 事先 给 出 要 生成 的 簇 的 数目 天 。 

(3) 对 初 值 敏感 ,对 于 不 同 的 初始 值 ,可 能 会 导致 不 同 的 聚 类 结果 。 

(4) 不 适合 于 发 现 非 凸 面 形 状 的 复 ,或 者 大 小 差别 很 大 的 得 。 

(5) 对 于 “噪声 ”和 和 孤立 点 数据 敏感 ,少量 的 该 类 数据 能 够 对 平均 值 产生 极 大 的 影响 。 


8. 5.2 K-means 聚 类 算法 的 应 用 


1. K-means 算法 在 散 货 船代 货运 系统 中 的 应 用 


在 散 货船 代 货 运 系 统 使 用 的 过 程 中 ,动态 业务 数据 的 处 理 及 实时 分 析 有 助 于 决策 者 
制订 有 效 的 策略 。 航 线 是 船代 公司 考虑 成 本 时 着 重 考虑 的 因素 ,航线 的 繁忙 程度 对 船代 
公司 的 资源 分 配 和 经 营 策略 的 制订 十 分 重要 。K-means 算法 简单 .快速 而 且 能 有 效 地 处 
理 大 型 数据 库 , 是 数据 挖掘 中 解决 聚 类 问题 的 一 种 经 典 算法 ,在 实际 应 用 中 ,将 其 用 于 散 
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货船 代 货运 方面 的 航线 繁忙 度 的 分 析 ,能 够 得 出 较 好 的 航线 繁忙 度 的 分 析 结果 。 
2. K-Means 算法 在 客户 细 分 中 的 应 用 


传统 意义 上 ,客户 细 分 往往 根据 客户 的 一 维 属性 来 进行 ,如 金融 行业 根据 客户 资产 多 
少 , 可 以 将 客户 分 为 高 .中 、 低 端 客户 ,该 细 分 方法 最 大 的 优点 是 简单 ,在 实践 中 简便 易 行 。 
但 是 , 随 着 技术 的 进步 与 客户 需求 的 日 趋 多 样 化 ,以 及 企业 产品 的 不 断 创新 ,传统 的 客户 
细 分 方法 显现 出 了 明显 的 缺点 ,即使 同 是 高 端 客户 ,客户 对 同一 产品 或 服务 的 需求 也 存在 
着 明显 差别 ,客户 对 产品 或 服务 的 要 求 日 趋 理性 和 严格 。 需 要 一 种 新 的 细 分 方法 。K- 
Means 算法 是 实践 中 最 为 常用 的 数据 挖掘 算法 之 一 ,在 处 理 大 数据 量 方面 有 绝对 优势 ， 
而 且 可 以 取得 较 好 的 效果 。 


8.6 小 结 


本 章 详细 地 介绍 了 天 -means 算法 的 基本 概念 .基本 原理 ,并 用 实例 进行 了 说 明 , 同 时 
还 分 析 了 天 -means 算法 的 一 个 具体 源 程序 ,并 介绍 了 该 算法 的 特点 和 存在 的 缺陷 ,最 后 
介绍 了 K-means 算法 的 应 用 ,从 中 可 以 看 出 K-means 算法 的 应 用 非常 广泛 。 


思考 题 


1. 简 述 K-means 算法 的 工作 流程 。 

2. K-means 聚 类 算法 的 优 缺 点 是 什么 ? 

3. 分 别 取 天王 2 和 3, 利用 天 -means 聚 类 算法 对 以 下 的 点 聚 类 : (2,1),(1,2)， 
(2,2),(3,2),(2,3),(3,3),(2,4),(3,5),(4,4),(5,3), 并 讨论 天 值 以 及 初始 聚 类 中 心 
对 聚 类 结果 的 影响 。 
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第 9 章 K- 中 心 点 聚 类 算法 
9.1 简介 


第 8 章 提 到 K-means 算法 对 于 离 群 点 是 敏感 的 ,因为 一 个 具有 很 大 的 极端 值 的 对 象 
可 能 显著 地 扭曲 数据 的 分 布 。 平 方 误差 函数 的 使 用 更 是 严重 恶化 了 这 一 影响 。 为 了 降低 
这 种 敏感 性 ,可 以 不 采用 簇 中 对 象 的 均值 作为 参照 点 ,而 是 在 每 个 簇 中 选 出 一 个 实际 的 对 
象 来 代表 该 秘 。 其 余 的 每 个 对 象 聚 类 到 与 其 最 相似 的 代表 性 对 象 所 在 的 簇 中 。 这 样 , 划 
分 方法 仍然 基于 最 小 化 所 有 对 象 与 其 对 应 的 参照 点 之 间 的 相 异 度 之 和 的 原则 来 执行 。 通 
常 ,该 算法 重复 迭代 ,直到 每 个 代表 对 象 都 成 为 它 的 徐 的 实际 中 心 点 ,或 最 靠 中 心 的 对 象 。 
这 种 算法 称 为 玉 - 中 心 点 聚 类 算法 。 

对 于 开 - 中 心 点 聚 类 ,首先 随意 选择 初始 代表 对 象 (或 种 子 )。 只 要 能 够 提高 聚 类 质 
量 ,迭代 过 程 就 继续 用 非 代 表 对 象 蔡 换 代表 对 象 。 聚 类 结果 的 质量 用 代价 函数 来 评估 ,该 
函数 量度 对 象 与 其 簇 的 代表 对 象 之 间 的 平均 相 异 度 。 


9.2 天 -中 心 点 聚 类 算法 原理 


K- 中 心 点 聚 类 算法 的 基本 思想 为 : 选用 簇 中 位 置 最 中 心 的 对 象 ,试图 对 个 对 象 给 
出 个 划分 ,代表 对 象 也 被 称 为 是 中 心 点 ,其 他 对 象 则 被 称 为 非 代表 对 象 。 最 初 随机 选择 
个 对 象 作为 中 心 点 ,该 算法 反复 地 用 非 代表 对 象 来 代替 代表 对 象 , 试 图 找 出 更 好 的 中 心 
点 ,以 改进 聚 类 的 质量 ;在 每 次 迭代 中 ,所 有 可 能 的 对 象 对 被 分 析 ,每 个 对 中 的 一 个 对 象 是 
中 心 点 ,而 男 一 个 是 非 代表 对 象 。 每 当 重 新 分 配 发 生 时 ,平方 误差 所 产生 的 差别 对 代价 函 
数 有 影响 。 因 此 ,如 果 一 个 当前 的 中 心 点 对 象 被 非 中 心 点 对 象 所 代替 ,代价 函数 将 计算 平 
方 误差 值 所 产生 的 差别 。 替 换 的 总 代价 是 所 有 非 中 心 点 对 象 所 产生 的 代价 之 和 。 如 果 总 
代价 是 负 的 ,那么 实际 的 平方 误差 将 会 减 小 ,代表 对 象 0; 可 以 被 非 代表 对 象 0; 替代 。 如 
果 总 代价 是 正 的 , 则 当前 的 中 心 点 O; 被 认为 是 可 接受 的 ,在 本 次 迭代 中 没有 变化 。 

在 K- 中 心 点 聚 类 算法 中 需要 计算 所 有 非 选中 对 象 与 选中 对 象 之 间 的 相 异 度 作为 分 
组 的 依据 。 针 对 不 同 的 数据 类 型 有 不 同 的 相 异 度 或 距离 函数 。 因 此 相 异 度 或 距离 函数 的 
选择 依据 数据 对 象 的 数据 类 型 。 一 般 情况 下 ,数据 对 象 为 数值 型 ,选用 曼哈顿 距离 : 

d(i,j))= |zxa—znl|+ [zz — zz|t+ + [zn — ,| (9-1) 

此 处 : i 二 (za Ta,Tm) 和 Jj 三 (zn ,zo，…,zn ) 是 两 个 维 的 数据 对 象 。 具 体 应 
用 中 应 根据 不 同 的 数据 类 型 选用 不 同 的 距离 函数 。 

为 了 判定 一 个 非 代表 对 象 O 是 否 是 当前 一 个 代表 对 象 0; 的 好 的 替代 ,对 于 每 一 个 
非 中 心 点 对 象 0 ,有 以 下 四 种 情况 需要 考虑 : 

第 一 种 情况 : 假设 O: 被 0; 代替 作 为 新 的 中 心 点 ,O; 当前 素 属于 中 心 点 对 象 0;。 如 
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果 O; 离 某 个 中 心 点 O。 最 近 ,i 关 mm, 那么 O; 被 重新 分 配给 O。, 蔡 换代 价 为 Cis 三 
d(jwm)—ad(ji), 

第 二 种 情况 : 假设 0; 被 0; 代 蔡 作为 新 的 中 心 点 ,O; 当前 隶属 于 中 心 点 对 象 0;。 如 
果 Ji 离 这 个 新 的 中 心 点 O 最 近 , 那 么 O; 被 分 配给 0; ,替换 代价 为 Cis 二 4d GD) 一 
d(j,i)。 

第 三 种 情况 : 假设 O; 被 0; 代 蔡 作为 新 的 中 心 点 ,但 是 O; 当前 隶属 于 另 一 个 中 心 点 
对 象 0,,m 隆 i。 如 果 O; 依然 离 O。 最近, 那么 对 象 的 隶属 不 发 生变 化 , 蔡 换 代价 为 


Cam 一 0。 
第 四 种 情况 : 假设 O; 被 0; 代替 作为 新 的 中 心 点 ,但 是 O; 当前 隶属 于 另 一 个 中 心 点 


对 象 0, ,m 隆 i。 如 果 O; 离 这 个 新 的 中 心 点 O; 最 近 ,那么 O; 被 重新 分 配给 0, ,替换 代价 
为 Cian==d(j,h)—d(j,m).。 

KK- 中 心 点 聚 类 算法 描述 : 

输入 : 簇 的 数目 和 包含 个 对 象 的 数据 库 。 

输出 : & 个 得 ,使 得 所 有 对 象 与 其 最 近 中 心 点 的 相 异 度 总 和 最 小 。 

(1) 任意 选择 & 个 对 象 作 为 初始 的 徐 中 心 点 。 

(2) Repeat。 

(3) 指派 每 个 剩余 对 象 给 离 它 最 近 的 中 心 点 所 表示 的 簇 。 

(4) Repeat。 

(5) 选择 一 个 未 被 选择 的 中 心 点 Oi。 

(6) Repeat。 

(7) 选择 一 个 未 被 选择 过 的 非 中 心 点 对 象 0 。 

(8) 计算 用 O; 代替 O; 的 总 代价 并 记录 在 S 中 。 

(9) Until 所 有 非 中 心 被 选择 过 。 

(10) Until 所 有 的 中 心 点 都 被 选择 过 。 

(11) 开 在 S 中 的 所 有 非 中 心 点 代替 所 有 中 心 点 后 的 计算 出 总 代价 有 小 于 0 的 存在 ， 
then 找 出 S 中 的 用 非 中 心 点 替代 中 心 点 后 代价 最 小 的 一 个 ,并 用 该 非 中 心 点 替代 对 应 的 
中 心 点 ,形成 一 个 新 的 A 个 中 心 点 的 集合 。 

(12) Until 没有 再 发 生得 的 重新 分 配 , 即 所 有 的 S 都 大 于 0。 


9.3 天 -中 心 点 聚 类 算法 实例 分 析 


【 例 9.1】 假如 空间 中 的 5 个 点 {A,B,C,D.,E), 各 点 之 间 的 距离 关系 如 表 9-1 所 
示 , 根 据 所 给 的 数据 对 其 运行 K- 中 心 点 算法 实现 聚 类 划分 ( 设 K= 二 2)。 


表 9-1 样本 点 间距 离 
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算法 执行 步 又 如 下 : 

第 一 步 ,建立 阶段 。 设 从 5 个 对 象 中 随机 抽取 的 2 个 中 心 点 为 1A,B} (点 C 到 点 A 
与 点 B 的 距离 相同 , 均 为 2, 故 随机 将 其 划 入 A 中 , 同 理 , 将 点 已 划 入 忆 中 ) 则 样本 被 划分 
为 {A,C,D} 和 {B,E)。 

第 二 步 ,交换 阶段 。 假 定 中 心 点 A,B 分 别 被 非 中 心 点 {C,D,E}) 替 换 , 根 据 K- 中 心 
点 算法 需要 计算 下 列 代价 TCac ,TCap ,TCag，TCac ,TCap ,TCaf 。 其 中 TCac 表 示 中 心 点 
A 被 非 中 心 点 C 代替 后 的 总 代价 。 下 面 以 TCac 为 例 说 明 计算 过 程 。 

当 A 被 C 替换 以 后 ,看 各 对 象 的 变化 情况 。 

(1) A: A 不 再 是 一 个 中 心 点 ,C 称 为 新 的 中 心 点 ,因为 A 离 B 比 A 离 C 近 ,A 被 分 
配 到 B 中 心 点 代表 的 簇 , 属 于 上 述 4 种 情况 的 (1)。Cmc 二 4d(A,B) 一 d (A,A)=1 一 0 
三 1。 

(2) B: 已 不 受 影响 ,属于 上 面 的 4 种 情况 的 (3) 。Caac 二 0。 

(3) C: C 原先 属于 A 中 心 点 所 在 的 簇 , 当 A 被 C 替换 以 后 ,C 是 新 中 心 点 ,属于 上 面 
的 第 (2) 种 情况 。Ceac = 二 d(C,C) 一 4(A,C)==0 一 2 2 

(4) D: D 原先 属于 A 中 心 点 所 在 的 徐 , 当 A 被 C 替换 以 后 , 离 D 最 近 的 中 心 点 是 
C, 属 于 上 面 的 第 (2) 种 情况 。Cpac 二 d(D,C) 一 4(D,A)==1 一 2 b, 

(5) EE; EE 原先 属于 B 中 心 点 所 在 的 簇 , 当 A 被 C 替换 以 后 , 离 D 最 近 的 中 心 点 仍然 
是 B, 属 于 上 面 的 第 (3) 种 情况 。Cec 二 0。 

因此 ,TCac Caac 二 Caac Ccac 二 Coac 十 Ceac 王 1 二 0 一 2 一 1 十 0 2。 同 理 , 可 以 计 
算出 TCAp 2, TCag Ly TCse 2,TCap 2,TCas 2。 在 上 述 代价 计算 完 
毕 后 ,我 们 要 选取 一 个 最 小 代价 ,显然 有 多 种 蔡 换 可 以 选择 ,选择 第 一 个 最 小 代价 的 蔡 换 
(也 就 是 A 替换 C) ,这 样 , 样 本 被 重新 划分 为 {A,B,E} 和 {1C,D)} 两 个 簇 。 通 过 上 述 计 算 ， 
已 经 完成 了 KK- 中 心 点 算法 的 第 一 次 迭代 。 在 下 一 次 迭代 中 ,将 用 其 他 的 非 中 心 点 
{A,B,E} 替 换 中 心 点 {C,D} , 找 出 具有 最 小 代价 的 替换 。 一 直 重 复 上 述 过 程 ,直到 代价 
不 再 减少 为 止 。 


9.4 天 -中 心 点 聚 类 算法 源 程序 分 析 


#include " iostream" 
指 nclude "time.h" 


using namespace std; 


struct mem // 成 员 结 构 体 包含 符号 和 一 个 表示 是 否 是 中 心 点 的 属性 
{ 

bool isMedoid; 

char symbol; 
对 


struct Node; // 队 列 节点 
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聚 类 算法 


typedef struct Node * PNode; // 队 列 节点 指针 
struct Node // 队 列 节点 结构 体 
{ 


mem info; 


PNode link; 
] 
struct LinkQueue{ // 队 列 数据 结构 
PNode f; 
PNode r; 
] 7 
typedef struct LinkQueue * PLinkQueue; // 队 列 指针 
PLinkQueue createEmptyQueue link() // 创 建 空 队列 函数 


{ 
PLinkQueue plqu; 
plqu= (PLinkQueue)malloc (sizeof (struct LinkQueue)); 
if (plqu!=NULL) 
{ 
plqu- >f=NULL; 
plqu- >r=NULL; 
} 
else 
cout<<"Out of space!"<<endl; 


return plqu; 


int isEmptyQueue link(PLinkQueue plqu) // 判 断 队列 是 否 为 空 孙 数 
{ 
return (plqu- >f==NULL); 


void enQueue Link (PLinkQueue plqu, mem x) // 元 素 入 队 函 数 
{ 
PNode p; 
p= (PNode)malloc (sizeof (struct Node)); 
if (p==NULL)cout<<"Out of space!"<<endl; 
else 
p->info=x; 
p->1ink=NULL; 
if (plqu->f==NULL)plqu->f=p; 
else plqu->r->link=p; 
plqu- >r=p; 


void deQueue link (PLinkQueue plqu) // 队 列 元 素 出 队 并 打印 函数 
{ 
PNode p; 
if (plqu->f==NULL)cout<<"Empty Queue"<<endl; 
else 
{ 
p=plqu->f£; 
cout<<p->info.symbol; 


plqu- >f=p->1link; 


free (p); 
} 
} 
void showCase (double linjiebiao[5] [5]) // 打 印 邻 接 矩 阵 函 数 
‘ 
int 1,j37 
char tmp; 
cout<<" 目 前 的 邻接 矩阵 形式 如 下 :"<<endl; 
cout<<"= "<<endl; 
cout<<" A B C D E "<<endl; 
for (i=0;i<5;i++) 
{ 
switch (i) 
{ 
case 0: tmp= 'A' ;break; 
case 1: tmp= 'B' ;break; 
case 2: tmp= 'C' ;break; 
case 3: tmp= 'D' ;break; 
case 4: tmp= 'E' ;break; 
} 
cout<<tmp; 
for (j=0;j<5;j++) 
cout<<" "<<linjiebiao[i] [j]; 
cout<<endl; 
i 
GOuts< = =="<<endls 
} 
void arbStart (struct mem memlist[5]) // 起 初时 随机 确定 两 个 为 中 心 点 
{ 
int i,j7 


for (i=0;i<5;i++) 
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if (memlist [i].isMedoid!=false) 


memlist [i] .isMedoid=false; 

srand ( (unsigned)time (NULL)); 
i=rand() $5; 
memlist[i].isMedoid=true; 
j=rand() $5; 
while (j==i) 
{ 

j=rand()%5; 
} 


memlist[j].isMedoid=true; 


} 
double distance(int j, int i, int k, double linjiebiao[5] [5]) 
// 求 解 点 ji kx 中 心 点 中 较 近 的 那个 点 的 距离 ,参考 邻接 矩阵 linjiebiao 


{ 
if (linjiebiao[j] [i]<1linjiebiao[j] [k]) 
return linjiebiao[j] [i]; 
else 
return linjiebiao[j] [k]; 
} 


double TC (int index[2],int i,int h, double linjiebiao[5] [5]) 
// 求 中 心 点 i 和 交换 后 ,距离 代价 Tc 的 变化 值 


int j; 

double sum=0; 

int tmp; 

if (i==index[0]) 
tmp=index[1]; 

else if (i==index[1]) 
tmp=index [0]; 

for (j=0;j<5;j++) 

t 
sum+ =distance (j,h, tmp, linjiebiao)- distance (j, index [0], index [1], 

linjiebiao); 


return sum; 


int smallest distance index (int index[2],int h,double linjiebiao[5][5]) 


// 判 断 点 属于 哪个 中 心 点 以 便 形成 簇 


int i,result=index[0]; 
for (i=0;i<2;i++) 


if (linjiebiao[index[i]] [h]<linjiebiao[index[0]] [h]) 


result=index[i]; 


return result; 


void showQueue (PLinkQueue pq) // 打 印 出 队列 并 释放 队列 占用 的 内 存 空 间 
{ 
cout<< ed 7 
while (!isEmptyQueue link(pq)) 
{ 
deQueue link (pq); 
cout<<","s 
} 
cout<<'\b'; 


cout<<"}"<<endl; 


void reposition (mem memlist[5], double linjiebiao[5] [5]) 


//KK 中 心 点 算法 关键 函数 ,是 该 算法 的 核心 体现 


int count,countl,h,i,k,holdi,holdh, index[2]; 
double tempdif; 
bool tmp; 


a 每 次 训话 计算 出 更 新 后 的 两 个 中 心 点 的 序号 
count1=0; 
for (k=0;k<5;k++) 
{ 
if(memlist[k].isMedoid: 


{ 


index[count1]=k; 


Countl++? 


count=0; 
for (h=0;h<5;h++) 
{ 
for (i=0;i<5;i++) 
{ 
if(memlist[h] .isMedoid==false&&memlist [i].isMedoid==true) 
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if (count==0) 
{ 
tempdif=TC (index,i,h,linjiebiao); 


count++; 


} 
else if (TC (index,i,h,1injiebiao)<tempdif) 
{ 
tempdif=TC (index,i,h,1injiebiao); 
holdi=i; 
holdh=h; 


Count++; 


if (tempdif<0) 

{ 
tmp=memlist [holdi].isMedoid; 
memlist [holdi].isMedoid=memlist [holdh] .isMedoid; 
memlist [holdh] .isMedoid=tmp; 


} 
else if(tempdif>=0) 


break; 
rk htt ht 
好 if(test==1) 
pad cout<<"Yes"<<endl; 
A A 两 大 和 
} 
while (1); 
} 
void main() // 主 函数 ,提供 邻接 矩阵 ,出 示 成 员 集合 等 天 中 心 点 算法 需要 的 输入 项 


{ 


int i,h,count; 


int index[2]; // 用 来 存储 为 中 心 点 的 两 个 点 的 索引 
PLinkQueue pq[2]; // 预 备 两 个 队列 用 以 存储 ,表示 两 个 簇 
pq[0]=createEmptyQueue link(); // 队 列 0 的 创建 
pq[1]=createEmptyQueue link(); // 队 列 1 的 创建 


4 


double linjiebiao[5] [5]={{0,1,2,2,3},1{1,0,2,4,3},1{2,2,0,1,5},1{2,4,1,0,3}, 


{3,3,5,3,0}}; // 初 始 化 邻接 矩阵 
struct mem memlist[5]={{false,'A'}, {false, 'B'}, {false, 'C'}, {false, 'D'}, 
{false, 'E'}}; // 初 始 化 成 员 集合 


showCase (linjiebiao); 
cout<< "期望 得 到 的 簇 的 数目 暂 定 为 2 为 例 ."<<enal; 
cout<<endl<<endl<<endl; 


arbStart (memlist); // 随 意 确定 两 个 点 作为 中 1 


cout<<" 初 始 化 后 的 中 心 点 分 布 情况 :"<<enal; 


int k; 
for (k=0;k<5;k++) 
cout<<memlist[k] .symbol<<" "<<memlist[k] .isMedoid<<endl; 


reposition(memlist,1injiebiao); /1K 中 心 点 算法 处 理 


cout<<endl<<endl<<endl; 


cout<<" 经 过 KK 中 心 点 算法 处 理 后 的 中 心 点 分 布 情况 :"<<endl; 
for (k=0;k<5;k++) 
cout<<memlist[k] .symbol<<" "<<memlist[k] .isMedoid<<endl; 


cout<<endl<<endl<<endl; 


count=0; 
for (i=0;i<5;i++) 
€ 
if (memlist[i].isMedoid==true) 
{ 
cout<<memlist[i].symbol<<" 是 最 终 得 到 的 中 心 


enQueue Link (Pq[count]，memlist[i])7 


index[count]=i; 


count++} 


for (h=0;h<5;h++) 
t 
if (memlist [h] .isMedoid==false) 
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if(smalles h,linjiebiao)==index[0]) 


nOieue Tink (pgq[0] 
else if (smallest distance index (index,h,1injiebiao)==index[1]) 


enQueue Link (pq[1], memlist [h]); 


cout<<" 以 以 上 两 个 中 心 点 为 中 心 的 两 个 簇 为 : 


showQueue (pq [0]) 


showQueue (pq [1]) 


} 


结果 分 析 : 如 运行 结果 图 9-1 所 示 。 程 序 提供 邻接 矩阵 ,出 示 成 员 集合 
算法 需要 的 输入 项 pie 的 数目 暂 定 为 2。 目 标 为 输出 2 个 簇 ,使 得 所 有 对 象 
与 其 最 近 中 心 点 的 相 异 度 总 和 最 小 。 首 先进 行 初始 化 ,起 初时 随机 确定 两 个 点 为 中 心 
指派 每 个 剩余 对 象 给 离 它 最 近 的 中 心 点 所 表示 的 得, 得 到 中 心 点 分 布 情况 。 然 后 


车 天 -中 心 点 


2) “DProgram FlesWicrozoh Visual Studio\MyProjects\9.4_PAM\Debug\9.4.PAM exe” .19 


图 9-1 程序 运行 结果 


kK- 中 心 点 聚 类 算法 


中 心 点 算法 处 理 ,所 有 可 能 的 对 象 对 被 分 析 , 每 个 对 中 的 一 个 对 象 是 中 心 点 A 或 记 ,而 另 
一 个 是 非 代 表 对 象 B.C、D 中 的 一 个 ,计算 用 非 中 心 点 代替 中 心 点 的 总 代价 并 记录 ,如 果 
在 记录 中 有 小 于 0 的 存在 , 找 出 用 非 中 心 点 替代 中 心 点 后 代价 最 小 的 一 个 ,并 用 该 非 中 心 
点 替代 对 应 的 中 心 点 ,形成 两 个 新 的 簇 , 如 此 反复 迭代 ,直到 不 再 发 生得 的 重新 分 配 ,最 终 
得 到 以 A、 眉 为 中 心 点 的 两 个 往 : (A,B,C,D),(E)。 


9.5 天 -中 心 点 聚 类 算法 的 特点 及 应 用 
9.5.1 K- 中 心 点 聚 类 算法 的 特点 


K- 中 心 点 算法 其 优势 为 : 对 噪声 点 /孤立 点 不 敏感 ,具有 较 强 的 数据 鲁 棒 性 ; 聚 类 结 
果 与 数据 对 象 点 的 输入 顺序 无 关 ; 聚 类 结果 具有 数据 对 象 平移 和 正 交 变换 的 不 变性 等 。 

该 算法 的 缺陷 在 于 聚 类 过 程 的 高 耗 时 性 。 对 于 大 数据 集 ,K- 中 心 点 算法 聚 类 过 程 组 
慢 的 主要 原因 在 于 : 通过 和 迭代 来 寻找 最 佳 的 聚 类 中 心 点 集 时 ,需要 反复 地 在 非 中 心 点 对 
象 与 中 心 点 对 象 之 间 进 行 最 近邻 搜索 ,从 而 产生 大 量 非 必需 的 重复 计算 。 


9.5.2 天 -中 心 点 聚 类 算法 的 应 用 


(1) K- 中 心 点 算法 在 暂 住 人 口 分 析 中 的 应 用 。 人 口 资源 是 最 具 战略 性 的 资源 ,作为 
世界 上 人 口 最 多 的 国家 ,加 强人 口 管理 现代 化 ,对 于 我 们 国家 各 项 事业 的 发 展 至 关 重要 ， 
其 中 暂 住 人 口 管理 就 关系 着 治安 管理 。 把 上 中心 点 应 用 到 暂 住 人 口 的 挖掘 中 ,可 以 发 现 
不 同 特征 的 暂 住 人 群 ,对 暂 住 人 口 的 调整 和 控制 有 很 大 的 帮助 。 

(2) K- 中 心 点 算法 在 软件 测试 中 的 应 用 。 在 软件 测试 过 程 中 ,测试 用 例 集 的 好 坏 直 
接 决 定 了 软件 测试 的 效率 高 低 。 如 何在 约 减 率 和 错误 检测 率 中 寻找 到 平衡 点 依然 是 一 个 
有 待 解决 的 难题 。 采 用 聚 类 分 析 中 的 划分 方法 K- 中 心 点 方法 对 原始 测试 用 例 集 进 行 聚 
类 ,根据 聚 类 产生 的 结果 和 测试 需求 集 从 各 簇 中 选择 测试 用 例 , 以 此 构成 约 简 后 测试 用 例 
集 , 能 大 幅度 地 降低 测试 运行 代价 。 


9.6 小 结 


本 童 详细 地 介绍 了 天 -中 心 点 算法 的 基本 概念 、 基 本 原理 ,并 用 实例 进行 了 说 明 , 同 时 
还 分 析 了 K- 中 心 点 算法 的 一 个 具体 的 源 程序 ,并 介绍 了 该 算法 的 特点 和 存在 的 缺陷 ,最 
后 介绍 了 天 -中 心 点 算法 的 应 用 ,从 中 可 以 看 出 K- 中 心 点 算法 的 应 用 非常 广泛 。 
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第 10 章 神经 网 络 聚 类 方法 : SOM 
10.1 简介 


生物 学 研究 表明 ,在 人 脑 的 感觉 通道 上 ,神经 元 的 组 织 原理 是 有 序 排列 的 。 当 外 界 的 
特定 时 空 信息 输入 时 ,大 脑 皮层 的 特定 区 域 兴 奋 ,而 且 类 似 的 外 界 信息 在 对 应 的 区 域 是 连 
续 映 像 的 。 生 物 视网膜 中 有 许多 特定 的 细胞 对 特定 的 图 形 比 较 敏感 , 当 视 网 膜 中 有 若干 
个 接收 单元 同时 受 特定 模式 刺激 时 ,就 会 使 大 脑 皮层 中 的 特定 神经 元 开始 兴奋 ,输入 模式 
接近 ,与 之 对 应 的 兴奋 神经 元 也 接近 ;在 听觉 通道 上 ,神经 元 在 结构 排列 上 与 频率 的 关系 
上 分 密切 ,对 于 某 个 频率 ,特定 的 神经 元 具有 最 大 的 响应 ,位 置 相 邻 的 神经 元 具有 相近 的 
频率 特征 ,而 远离 的 神经 元 具有 的 频率 特征 差别 也 较 大 。 大 脑 皮层 中 神经 元 的 这 种 响应 
特点 不 是 先天 安排 好 的 ,而 是 通过 后 天 的 学 习 自 组 织 形成 的 。 

据 此 芬兰 Helsinki 大 学 的 Kohonen T. 教授 提出 了 一 种 自 组 织 特征 映射 网 络 (Self- 
Organizing feature Map,SOM) ,又 称 Kohonen 网 络 。Kohonen 认为 ,一 个 神经 网 络 接收 
外 界 输入 模式 时 ,将 会 分 为 不 同 的 对 应 区 域 .各 区 域 对 输入 模式 有 不 同 的 响应 特征 ,而 这 
个 过 程 是 自动 完成 的 。SOM 网 络 正 是 根据 这 一 看 法 提出 的 ,其 特点 与 人 脑 的 自 组 织 特性 
类 似 。SOM 的 目标 是 用 低 维 ( 通 常 是 二 维 或 三 维 ) 目标 空间 的 点 来 表示 高 维 源 空间 中 的 
所 有 点 , 尽 可 能 地 保持 点 间 的 距离 和 邻近 关系 (拓扑 关系 ) 。 


10.2 竞争 学 习 算 法 基础 
10.2.1 自 组 织 神经 网 络 结构 


1 定义 


自 组 织 神经 网 络 (Self-organizing feature Map,SOM) 是 无 导师 学 习 网 络 。 它 通过 自 
动 寻找 样本 中 的 内 在 规律 和 本 质 属性 , 自 组 织 、 自 适应 地 改变 网 络 参 数 与 结构 。 


2. 结构 


SOM 为 层次 型 结构 。 典 型 结构 是 : 输入 层 加 竞争 层 , 如 图 10-1 所 示 。 
输入 层 : 接收 外 界 信 息 ,将 输入 模式 向 竞争 层 传递 ,起 “观察 "作用 。 
竞争 层 : 负责 对 输入 模式 进行 “分 析 比 较 ”, 寻 找 规律 并 归 类 。 
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图 10-1 自 组 织 神经 网 络 结构 


10.2.2 自 组 织 神经 网 络 的 原理 


1. 分 类 与 输入 模式 的 相似 性 


分 类 是 在 类 别 知识 等 导师 信号 的 指导 下 ,将 待 识别 的 输入 模式 分 配 到 各 自 的 模式 类 
中 的 ,无 导师 指导 的 分 类 称 为 聚 类 , 聚 类 的 目的 是 将 相似 的 模式 样本 划 归 为 一 类 ,而 将 不 
相似 的 分 离开 来 ,实现 模式 样本 的 类 内 相似 性 和 类 间 分 离 性 。 由 于 无 导师 学 习 的 训练 样 
本 中 不 含 期 望 输出 ,因此 对 于 某 一 输入 模式 样本 应 属于 哪 一 类 并 没有 任何 先 验 知识 。 对 
于 一 组 输入 模式 ,只 能 根据 它们 之 间 的 相似 程度 来 分 为 若干 类 ,因此 ,相似 性 是 输入 模式 
的 聚 类 依据 。 


2. 相似 性 测量 


神经 网 络 的 输入 模式 向 量 的 相似 性 测量 可 用 向 量 之 间 的 距离 来 衡量 。 常 用 的 方法 有 
欧 氏 距离 法 和 余弦 法 两 种 。 

1) 欧式 距离 法 

设 X,X; 为 两 向 量 ,其 间 的 欧式 距离 为 

d 一 |X 一 X| = V(X 一 X) (X 一 X)” ((X 一 X)7 表示 (X 一 X) 转 置 ) 

(10-1) 

d 越 小 ,X 与 X; 就 越 接近 ,两 者 也 越 相似 , 当 d=0 时 ,X=Xi; 以 d=T( 常 数 ) 为 判 据 , 可 
对 输入 向 量 模式 进行 聚 类 分 析 。 

由 于 diz dz ,dai 均 小 于 T,dss ,dss ,dw 均 小 于 T, 而 di>>T(Gi 一 4,5,6) ,do >>T(Gi 一 4， 
5,6) ,ds 之 T(i=4,5,6), 故 将 输入 模式 Xi ,Xs ,Xs ,XX ,X; ,Xe 分 为 类 1 和 类 2 两 大 类 ,如 
图 10-2 所 示 。 


2) 余弦 法 
设 闵 ,X; 为 两 向 量 , 其 间 的 夹 角 余 弦 


XXT _ 
oso 一 一 -一 (XT 示 关 ) (10-2) 
| 本 本 


9 越 小 ,和 与 入 ; 就 越 接近 ,两 者 也 越 相 似 ; 当 g 二 0 时 ,cosp 王 1,X=Xi: 同 样 以 yg 二 go 为 判 
据 可 进行 聚 类 分 析 。 
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(b) 类 2 


图 10-2 基于 欧式 距离 的 模式 分 类 


3. 竞争 学 习 原 理 


竞争 学 习 规则 的 生理 学 基础 是 神经 细胞 的 侧 抑制 现象 。 当 一 个 神经 细胞 兴奋 后 ,会 
对 其 周围 的 神经 细胞 产生 抑制 作用 。 最 强 的 抑制 作用 是 竞争 获胜 的 “ 唯 我 独 兴 ”, 这 种 做 
法 称 为 “ 胜 者 为 王 ”"(WinnerTake-All,WTA)。 竞 争 学 习 规 则 就 是 从 神经 细胞 的 侧 抑制 
现象 获得 的 , 它 的 学 习 步骤 如 下 : 
1) 向 量 归 一 化 
对 自 组 织 网 络 中 的 当前 输入 模式 向 量 X、 竞 争 层 中 各 神经 元 对 应 的 内 星 权 向 量 
Wi (ji 一 1,2,…,7) ,全 部 进行 归 一 化 处 理 , 如 图 10-3 
所 示 , 得 到 X 和 Wi。 
se WwW 
X= TXT “7 TwT 
2) 寻找 获胜 神经 元 
将 和 与 竞争 层 所 有 神经 元 对 应 的 内 星 权 向 量 
WG 二 1,2,…,m) 进 行 相似 性 比较 。 最 相似 的 神经 


(10-3) 


元 获胜 , 权 向 量 为 Wi 。 图 10-3 向 量 归 一 化 

上 | 文 一 太一 min {1 广 一 记 中 ) 
十 广 一 亢 : | 二 (这 一 Wj ) (这 一 Wj )7 二 RT 一 2WW: 这 ?十 矿 )- WF 

= M2(1—W,: X') 
一 Wi- XT 二 max(WiXT) (XT 表示 X 转 置 ) (10-4) 
3) 网 络 输出 与 权 调整 
按 WTA 学 习 法 则 ,获胜 神经 元 输出 为 "1” ,其余 为 0, 即 

LE 
w+D = es (10-5) 


只 有 获胜 神经 元 才 有 权 调 整 其 权 向 量 W;* ,其 权 向 量 学 习 调 整 如 下 : 
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4 (十 1) =W: (00) +AW: =W: (1)+a(¥—W,:) i 
W(t+D)=W0 ji 
0<a 二 1 为 学 习 率 ,a 一 般 随 着 学 习 的 进展 而 减 小 , 即 调整 的 程度 越 来 越 小 , 趋 于 聚 类 
中 心 。 

4) 重新 归 一 化 处 理 

归 一 化 后 的 权 向 量 经 过 调整 后 ,得 到 的 新 向 量 不 再 是 单位 向 量 , 因 此 要 对 学 习 调 整 后 
的 向 量 重新 进行 归 一 化 ,循环 运算 ,直到 学 习 率 a 衰减 到 0。 


10.3 SOM 算法 原理 
10.3.1 SOM 网 络 的 拓扑 结构 


从 网 络 结构 上 来 说 ,SOM 网 络 最 大 的 特点 是 神经 元 被 放置 在 一 维 \ 二 维 或 者 更 高 维 
的 网 格 结 点 上 。 图 10-4 就 是 最 普遍 的 自 组 织 特征 映射 二 维 网 络 模 型 。 


1 i N 
图 10-4 二 维 SOM 网 络 模型 


SOM 网 络 的 一 个 典型 特性 就 是 可 以 在 一 维 或 二 维 的 处 理 单元 阵列 上 ,形成 输入 信号 
的 特征 拓扑 分 布 ,因此 SOM 网 络 具有 抽取 输入 信号 模式 特征 的 能 力 。SOM 网 络 一 般 只 
包含 有 一 维 阵列 和 二 维 阵列 .但 也 可 以 推广 到 多 维 处 理 单元 阵列 中 去 。 下 面 只 讨论 应 用 
较 多 的 二 维 阵列 。 

输入 层 是 一 维 的 神经 元 ,具有 N 个 结 点 ,竞争 层 的 神经 元 处 于 二 维 平面 网 格 结 点 上 ， 
构成 一 个 二 维 结 点 矩阵 ,共有 M 个 结 点 。 输 入 层 与 竞争 层 的 神经 元 之 间 都 通过 连接 权 值 
进行 连接 ,竞争 层 临近 的 结 点 之 间 也 存在 着 局 部 的 互联 。SOM 网 络 中 具有 两 种 类 型 的 权 
值 , 一 种 是 神经 元 对 外 部 输入 的 连接 权 值 , 另 一 种 是 神经 元 之 间 的 互 连 权 值 , 它 的 大 小 控 
制 着 神经 元 之 间 相 互 作 用 的 强 弱 。 在 SOM 网 络 中 ,竞争 层 又 是 输出 层 。SOM 网 络 通过 
引入 网 格 形成 了 自 组 织 特征 映射 的 输出 空间 ,并 且 在 各 个 神经 元 之 间 建 立 了 拓扑 连接 关 
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系 。 神 经 元 之 间 的 联系 是 由 它们 在 网 格 上 的 位 置 所 决定 的 ,这 种 联系 模拟 了 人 脑 中 的 神 
经 元 之 间 的 侧 抑制 功能 ,成 为 网 络 实现 竞争 的 基础 。 


10.3.2 SOM 权 值 调整 域 


SOM 网 采用 的 算法 称 为 Kohonen 算法 , 它 是 在 “ 胜 者 为 王 ”(WinnerTake-All， 
WTA) 学 习 规 则 基础 上 加 以 改进 的 ,主要 区 别 是 调整 权 向 量 与 侧 抑制 的 方式 不 同 。 

WTA: 侧 抑 制 是 “封杀 ” 式 的 。 只 有 获胜 神经 元 可 以 调整 其 权 值 ,其 他 神经 元 都 无 权 
调整 。 

Kohonen 算法 : 获胜 的 神经 元 对 其 邻近 神经 元 的 影响 是 由 近 及 远 ,由 兴奋 逐渐 变 为 
抑制 的 。 换 句 话说 ,不 仅 获胜 神经 元 要 调整 权 值 , 它 周围 的 神经 元 也 要 不 同 程度 地 调整 权 
向 量 。 常 见 的 调整 方式 有 以 下 几 种 。 

(1) 墨西哥 草帽 函数 : 获胜 节点 有 最 大 的 权 值 调整 量 , 临 近 的 节点 有 稍 小 的 调整 量 ， 
离 获胜 节点 距离 越 大 , 权 值 调整 量 就 越 小 , 直到 某 一 距离 do 时 , 权 值 调整 量 为 零 ; 当 距 离 
再 远 一 些 时 , 权 值 调整 量 稍 负 ,更 远 又 回 到 零 , 如 图 10-5(a) 所 示 。 

(2) 大 礼帽 函数 : 它 是 墨西哥 草帽 函数 的 一 种 简化 ,如 图 10-5Cb) 所 示 。 

(3) 厨师 帆 函 数 : 它 是 大 礼帽 函数 的 一 种 简化 ,如 图 10-5(c) 所 示 。 


rro 
一 


wr) 


图 10-5 权 值 调整 函数 


以 获胜 神经 元 为 中 心 设 定 一 个 邻 域 半 径 RR, 该 半径 固定 的 范围 称 为 优胜 邻 域 。 在 
SOM 网 络 学 习 方 法 中 ,优胜 邻 域内 的 所 有 神经 元 , 均 按 其 离开 获胜 神经 元 距离 的 远近 不 
同 程度 地 调整 权 值 。 优 胜 邻 域 开 始 定 得 较 大 ,但 其 大 小 随 着 训练 次 数 的 增加 不 断 收缩 ,最 
终 收缩 到 半径 为 零 。 
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10.3.3 SOM 网 络 运行 原理 


SOM 网 络 的 运行 分 训练 和 工作 两 个 阶段 。 在 训练 阶段 ,网络 随机 输入 训练 集中 的 样 
本 ,对 某 个 特定 的 输入 模式 ,输出 层 会 有 某 个 节点 产生 最 大 响应 而 获胜 ,而 在 训练 开始 阶 
段 ,输出 层 哪个 位 置 的 节点 将 对 哪 类 输入 模式 产生 最 大 响应 是 不 确定 的 。 当 输入 模式 的 
类 别 改变 时 ,二 维 平面 的 获胜 节点 也 会 改变 。 获 胜 节点 周围 的 节点 因 侧 向 相互 兴奋 作 
也 产生 较 大 影响 ,于 是 获胜 节点 及 其 优胜 邻 域内 的 所 有 节点 所 连接 的 权 向 量 均 向 输入 方 
向 作 不 同 程度 的 调整 ,调整 力度 依 邻 域内 各 节点 距离 获胜 节点 的 远近 而 逐渐 减 小 。 网 络 
通过 自 组 织 方式 ,用 大 量 训练 样本 调整 网 络 权 值 , 最 后 使 输出 层 各 节点 成 为 对 特定 模式 类 
敏感 的 神经 元 ,对 应 的 内 星 权 向 量 成 为 各 输入 模式 的 中 心 向 量 。 并 且 当 两 个 模式 类 的 特 
征 接近 时 ,代表 这 两 类 的 节点 在 位 置 上 也 接近 。 从 而 在 输出 层 形成 能 反应 样本 模式 类 分 
布 情况 的 有 序 特征 图 。 


10.3.4 学 习 方 法 


对 应 于 上 述 运行 原理 ,SOM 网 络 采用 的 学 习 算法 按 以 下 步骤 进行 : 
1. 初始 化 


对 输出 层 各 权 向 量 赋 小 随机 数 并 进行 归 一 化 处 理 , 得 到 Wi Gj 三 1,2,…,m) ,建立 初 
始 优胜 邻 域 N (0) 和 学 习 率 % 初 值 。m 为 输出 层 神经 元 数目 。 


2. 接收 输入 


从 训练 集中 随机 取 一 个 输入 模式 并 进行 归 一 化 处 理 , 得 到 X?(p 二 1,2,…,n) ,7 为 输 
入 层 神经 元 数目 。 


3. 寻找 获胜 节点 


计算 Xr 与 Wi 的 点 积 ,从 中 找到 点 积 最 大 的 获胜 节点 请 。 
4. 定义 优胜 邻 域 Nj* (1) 


以 六 为 中 心 确定 上 时 刻 的 权 值 调整 域 , 一 般 初始 邻 域 N;* (0) 较 大 (大 约 为 总 节点 的 
50% 一 80%) ,训练 过 程 中 Ni ( 刀 随 训练 时 间 收 缩 , 如 图 10-6 所 示 。 


5. 调整 权 值 


对 优胜 邻 域 N;* (2 内 的 所 有 节点 调整 权 值 。 
ws (t+1) 一 (十 ac(tN)Lz — wt))] i=1,2,.%,n,j € Nj: (1) 


(10-7) 
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Nj:(0) 
© |- © "0% "Bo 
O | 〇 | 
一 NOD) 
© | OO 本 = 国医 = 可 区 = 国际 =， 
一 NO) 
下 人 相配 名 省 Pei 各 
站 0 


(9 Be a € Vo 0 2 Eo © 
图 10-6” 邻 域 Nj* (的 收缩 


其 中 ,a(t,NN) 是 训练 时 间 t 和 邻 域内 第 7 个 神经 元 与 获胜 神经 元 ) 之 间 的 拓扑 距离 N 的 
函数 ,该 函数 一 般 有 以 下 规律 : 
t+ 一 ay ,Nay; 如 naGN)=aCD)e wa(O 可 采用 :的 单调 下 降 函 数 也 称 退 火 丽 数 。 


6. 结束 判定 
当 学 习 率 a(1) 坊 ann 时 ,训练 结束 ;不 满足 结束 条 件 时 , 转 到 步 又 2) 继续 。 


10.4 SOM 算法 实例 分 析 


10.4.1 问题 描述 


用 32 个 字符 作为 SOM 输入 样本 ,包括 26 个 英文 字母 和 6 个 数字 (1 一 6) 。 每 个 字符 
对 应 一 个 5 维 向 量 , 各 字符 与 向 量 X 的 关系 如 表 10-1 所 示 。 由 表 10-1 可 以 看 出 ,代表 
A、B、C.D、E 的 各 向 量 中 有 4 个 分 量 相同 , 即 zt,zg,zf,zp,zf 一 0(G 一 1,2,3,4), 因 此 ， 
A、B、C.D\E 应 归 为 一 类 ;代表 F、G、H.、I、J 的 向 量 中 有 三 个 分 量 相同 , 同 理 也 应 归 为 一 
类 ;以 此 类 推 。 这 样 就 可 以 由 表 10-1 中 输入 向 量 的 相似 关系 ,将 对 应 的 字符 标 在 如 
图 10-7 所 示 的 树 状 结构 图 中 ,用 SOM 网 络 对 其 他 进行 聚 类 分 析 。 


表 10-1 字符 与 其 对 应 向 量 
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神经 网 络 聚 类 方法 ，SOM 


图 10-7 树 状 结构 图 


10.4.2 网 络 设计 及 学 习 结果 


1. 表格 分 析 


A、B.C.D.\E 的 各 向 量 有 4 个 分 量 相同 一 一 同类 。 
F.G、H\I\J 的 各 向 量 有 3 个 分 量 相 同一 一 同类 。 


2. SOM 网 络 设计 


(1) 输入 层 节 点 数 n: 样本 维 数 二 5。 

(2) 输出 层 节点 数 : 取 70 个 神经 元 ,二 维 平面 阵 。 
(3) 权 值 初始 化 : 随机 小 数 。 

(4) N;* (1) 领域 半径 : r(1) = 二 10(1 一 t/tn)。 

(5) 学 习 率 a(1)= 二 Cs (1 一 t/t%)0.5(1 一 t/t,)。 


3. 训练 

将 训练 集中 代表 各 字符 的 输入 向 量 Xe 随机 选取 后 训练 ,经 10 000 步 训 练 ,各 权 向 量 趋 
于 稳定 。 对 网 络 输出 ,进行 核准 , 即 根据 输出 神经 元 阵列 与 训练 集中 已 知 模式 向 量 对 应 关系 
的 标号 来 核准 。 结 果 是 : 70 个 神经 元 中 ,有 32 个 神经 元 有 标号 ,另外 38 个 为 未 用 神经 元 。 
10.4.3 结果 输出 


图 10-8 给 出 了 自 组 织 学 习 后 的 输出 结果 。SOM 网 络 完成 学 习 训 练 后 ,对 于 每 一 个 
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据 挖 拉 


输入 字符 ,输出 
出 特征 了 


EF 面 中 都 有 一 个 特定 的 神经 元 对 其 敏感 ,这 种 输入 -输出 的 映射 关系 在 输 
FF 面 中 表现 得 非常 清楚 。SOM 网 络 经 自 组 织 学 习 后 在 输出 层 形成 了 有 规则 的 拓 


扑 结构 ,在 神经 元 阵列 中 ,各 字符 之 间 的 相互 位 置 关系 与 它们 在 树 状 结构 中 的 相互 位 置 关 
系 类 似 ,两 者 结构 特征 上 的 一 致 性 是 非常 明显 的 。 


图 10-8 自 组 织 学 习 的 输出 结果 


10.5 SOM 算法 源 程序 分 析 
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#include<fstream.h> 
档 nclude<iomanip.h> 
#include<stdio.h> 
#include<stdlib.h> 
#include<math.h> 


#define InputLayerNum 35 

#define OutputLayerRow 8 

#define OutputLayerColumn 12 

#define total iteration Num 80//10000//80//100//1000 

#define error limit 0.0000000000008//0.1//0.0000000000008//0.000000000000008// 
0.0001 

#define efficiency 0.9//0.3//0.9//0.3//0.9 


int i,j7 ky lmns 

int inputMode [26] [7] [5]; 

double weight [OutputLayerRow x* OutputLayerColumn] [InputLayerNum]; 
int current iteration num=0; 

double study efficiency=efficiency; 

long double distance [OutputLayerRow* OutputLayerColumn]; 

int neighbor width=OutputLayerColumn; 

int neighbor height=0utputLayerRow; 

int row[OutputLayerRow],column [OutputLayerColumn]; 


int flag[OutputLayerRow] [OutputLayerColumn]; 


int temp row,temp column; 
int winner row,winner column; 


long double min distance=1000.0; 


/ 尖 关 关 关 闫 美美 关 美美 关 美美 关 关 关 关 关 闫 闪闪 关 关 关 关 关 关 闫 关 关 闫 关 关 关 关 关 关 关 关 关 关 关 关 关 关 关 关 美美 关 关 关 关 关 关 关 关 关 关 关 关 关 关 / 


// 该 函数 初始 化 距离 变量 为 0, 初 始 化 保存 胜出 节点 的 位 置 的 变量 
/汪汪 尖 关 尖 关 闫 关 关 尖 尖 关 尖 尖 关 尖 关 关 关 尖 尖 尖 尖 关 尖 关 关 闫 尖 关 尖 关 关 尖 尖 关 关 关 关 关 尖 关 尖 关 关 关 关 关 关 尖 关 关 尖 关 关 关 关 关 关 关 关 关 关 关 / 
void init distance() 
{ 
for (i=0;i<OutputLayerRow;i++) 
for (j=0;j<OutputLayerColumn;j++) 
distance[i* OutputLayerColumn+j]=0.0; 
} 


/ 半 关 关 尖 关 六 关 关 闫 关 关 关 关 六 关 尖 关 关 尖 关 尖 关 关 尖 闫 关 关 关 关 关 闫 关 关 关 尖 并 尖 关 关 关 关 尖 针尖 针尖 关 关 关 关 关 尖 关 关 尖 关 关 关 尖 关 关 / 


// 该 函数 用 于 计算 欧 氏 距离 ,并 找到 获胜 神经 


/ 尖 庆 尖 尖 尖 尖 尖 六 尖 尖 关 尖 尖 关 关 尖 关 关 关 关 尖 关 尖 关 关 尖 尖 关 并 尖 尖 尖 关 关 关 关 尖 尖 关 关 尖 关 尖 关 关 尖 尖 尖 关 尖 六 尖 尖 关 尖 关 尖 关 尖 关 关 / 


LC 


void eula distance() 
{ 
int ttLow,ttUp,ppLow,ppUp; 
ttLow=winner column-neighbor width/2; 
ttUp=winner_columntneighbor width/2; 
PpLow=winner row-neighbor height/2; 
ppUp=winner rowtneighbor height/2; 
if (ttLow<0) 
ttLow=0; 
if (ttUp>=OutputLayerColumn) 
ttUp=OutputLayerColumn- 1; 
if (PPLow<0) 
ppLow=0; 
if (ppUp>=OutputLayerRow) 
ppUp=OutputLayerRow-1; 
for (i=ppLow;i<=ppUp;i++) 
for (j=ttLow;j<=ttUp;j++) 
{ 
if(! (flag[i] [ij]==100)) 
{ 
for (m=0;m<7;m++) 
for (n=0;n<S5;n++) 
distance[ix OutputLayerColumn+j]+= 
pow ( (inputMode [1] [m] [n] -weight [i * OutputLayerColumn+j] [mx 5+ 
n])v2)7 
if(distance[ix OutputLayerColumn+j]<min _ distance) 
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min distance=distance[i* OutputLayerColumn+j]; 
temp row=i; 


temp_ column=j; 


if (current iteration num>0) 


{ 


if (min distance<=error limit) 
{ 
row[temp_row]=temp row; 
column [temp_column]=temp_ column; 


flag[temp row] [temp column]=100; 


, 


/ 尖 尖 关 关 关 关 关 关 关 关 关 六 关 关 闪光 尖 尖 关 闫 并 关 尖 关 尖 尖 尖 尖 尖 关 尖 闫 尖 关 尖 尖 关 尖 关 关 关 尖 关 关 关 尖 关 关 关 尖 关 关 关 关 关 尖 尖 关 关 关 关 关 关 关 / 


// 调 整 权 值 
/汪汪 尖 活 闪闪 汪汪 次 凑 关 关 尖 问 尖 六 六 关 诬 洪江 关 关 尖 关 并 并 闪闪 湛江 闪闪 关 关 关 江 尖 闪 并 湛江 关 并 闪闪 尖 关 闪闪 尖 尖 关 并 兴 闪闪 关 关 闪闪 尖 关 关 / 
void weight change() 
{ 
int ttLow,ttUp,ppLow,ppUp; 
winner row=temp row; 
winner column=temp column; 
ttLow=winner column-neighbor width/2; 
ttUp=winner column+neighbor width/2; 
PPpLow=winner row-neighbor height/2; 
ppUp=winner rowt+neighbor height/2; 
if (ttLow<0) 
ttLow=0; 
if (ttUp>=OutputLayerColumn) 
ttUp=OutputLayerColumn- 1; 
if (ppLow< 0) 
ppLow=0; 
if (ppUp>=OutputLayerRow) 
ppUp=OutputLayerRow-1; 
for (i=ppLow;i<=ppUp;i++) 
for (j=ttLow;j<=ttUp;j++) 
{ 
if(! (flag[i]{[j]==100)) 
{ 


194 


for (m=0;m<7;mt++) 

for (n=0;n<5;n++) 

weight [ix OutputLayerColumn+j] [mx 5+n]= 

weight [ix OutputLayerColumn+j] [mx 5+n]+ 

study efficiency* (inputMode [1] [m] [n]-weight [ix OutputLayerColumn+j] 


[mx* 5+n]) 7 


/ 尖 关 关 关 关 关 关 关 美美 关 尖 关 尖 关 尖 尖 关 关 关 关 关 关 关 尖 关 尖 关 关 关 关 关 关 关 关 尖 关 关 关 关 关 关 关 关 关 关 关 关 关 关 关 关 关 关 关 关 关 关 关 关 关 关 关 关 / 
// 调 整 学 习 效率 以 及 获胜 节点 的 邻 域 大 小 

/ 尖 关 关 关 关 关 关 关 美美 关 尖 关 关 关 尖 尖 关 关 关 闫 闫 六 关 尖 关 尖 美美 关 关 关 尖 关 尖 尖 关 关 关 关 关 尖 关 关 关 尖 关 关 美美 关 关 关 关 关 关 关 关 关 关 关 关 关 关 / 
void parachange () 


study efficiency=study _ efficiencyx (1.0- ((double) current iteration num)/ 
total iteration Num); 

neighbor width=int (neighbor width* (1.0- ((double) current iteration num)/ 
total iteration Num)); 

neighbor height= int (neighbor height * (1.0- ((double)current iteration_ 
num) /total iteration Num)); 


} 


/美美 关 关 闫 并 六 关 关 关 尖 关 庆 这 尖 关 关 尖 关 关 尖 关 尖 尖 关 尖 关 关 闫 关 关 闫 闫 尖 关 关 关 关 关 关 关 关 关 关 关 关 关 关 关 关 关 关 关 关 关 关 / 


// 该 函数 用 于 将 所 有 输入 模式 从 文件 中 读 入 ,并 存放 到 数组 inputMode 中 
// 同 时 进行 权 值 的 初始 化 ,采用 随机 赋值 的 方法 
/ 半 尖 关 关 汪汪 关 关 闫 关 关 关 关 关 关 尖 六 尖 关 尖 尖 尖 关 关 尖 尖 尖 闫 尖 关 关 关 尖 关 尖 尖 尖 关 关 关 关 尖 关 关 关 尖 关 尖 关 关 关 关 尖 关 关 尖 关 关 关 关 关 关 关 关 关 / 
void initialize() 
{ 
for (i=0;i<OutputLayerRow;i++) 
row[i]=100; 
for (j=0;j<OutputLayerColumn;j++) 
column[j]=100; 
for (i=0;i<OutputLayerRow;i++) 
for (j=0;j<OutputLayerColumn;j++) 
flag[i] [j]=0; 
// 从 文件 中 将 所 有 输入 模式 读 人 ,并 存放 到 数组 inputMode 中 
FILE * pf= fopen ("相关 数据 \\ 输 入 数据 \\input.txt", "a+"); 
if (pf==NULL) 
和 
cout<<"Can not open input file!\n"; 


exit(0); 
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据 挖 扩 


for (i=0;i<26;i++) 
for (j=0;j<7;j++) 
for (k=0;k<5;k++) 
fscanf (pf,"%d",&inputMode [i] [j] [k]); 
MAAN 
// 用 于 测试 是 否 能 够 正确 读 人 输入 模式 
char character[26]; 
for (i=0;i<26;i++) 

character [i]= (65+i); 
ofstream mode ("相关 数据 \\ 输 出 数据 \\ 向 量 模 式 .txt", ios::out); 
for (i=0;i<26;i++) 
{ 

mode<<character[i]<<"\n"<<endl; 

£062(j=073<773++) 

{ 
for (k=0;k< 5;k++) 

mode<<inputMode [i] [j] [kx]<<" "; 
mode<<"\n"; 

} 

mode<<"\n\n\n"; 
} 
AMA 
// 权 值 初始 化 ,采用 随机 赋值 的 方法 
for (i=0;i<OutputLayerRow;i++) 
for (j=0;j<OutputLayerColumn;j++) 
for (k=0;k<InputLayerNum; k++) 

weight [ix OutputLayerColumn+j] [k]= (double (rand ()%101) ) /100.0; 
LULUULLAUAAAUAAUAAAUAAAAAAAAUAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAY 
// 用 于 测试 是 否 能 够 正确 初始 化 权 值 
ofstream quan ("相关 数据 \\ 输 出 数据 \\ 初 始 的 权 值 .txt",ios::out); 
for (i=0;i<OutputLayerRow;i++) 
for (j=0;j<OutputLayerColumn;j++) 

{ 
quan<<"\n\n\n"<<"Node["<<i+1<<"]["<<j+1l<<"]"<<"\n"; 
for (k=0; k< InputLayerNum; k++) 

{ 
if (ks%5==0) 
quan<<"\n"; 
quan<<setprecision(6)<<setiosflags (ios::fixed)<<weight [i * 
OutputLayerColumn+j] [k]<<" wy 
} 


quan<<"\n\n\n"; 


} 


AMAA 


void main (void) 


{ 


int iteration numbers[26]; 
int total num=0; 
char character [26]; 
void test netWork 1(); //function declaration 
void test netWork 2(); //function declaration 
for(1=0;1<26;1++) 
{ 
iteration numbers[1]=0; 
character [1]= (65+1); 
和 
initialize(); 
for (l=0;1<26;1++) 
{ 
winner row=OutputLayerRow/2; 
winner column=OutputLayerColumn/2; 
while(current iteration num<total iteration Num) 
{ 
init distance(); 
eula distance(); 
weight change(); 
if (min distance<=error limit) 
break; 
++current iteration num; 
paraChange (); 
二 
iteration numbers[1]=current iteration num+1; 
neighbor width=OutputLayerColumn; 
neighbor height=OutputLayerRow; 
study efficiency=efficiency; 
current iteration num=0; 
min distance=1000.0; 
b 
for (l=0;1<26;1++) 
total num+=iteration numbers[1]; 
ofstream iteration_num(" 相 关 数 据 \\ 输 出 数据 \\ 和 迭代 次 数 .txt",ios::out); 
for (1=0;1<26;1++) 


iteration num<<character[1]<<" 迭代 "<<iteration numbers[1]<<" 次 !\n"<<endl; 
if (1==25) 
iteration num<<" 整 个 训练 过 程 共 迭代 "<<total num<< "次!\n"<<endl; 
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ofstream all weight ("相关 数据 \\ 输 出 数据 \\ 训 练 后 所 有 权 值 .txt",ios::out); 
ofstream winner_weight ("相关 数据 \\ 输 出 数据 \\ 训 练 后 胜出 权 值 .txt",ios::out); 


for (i= 


?i<OutputLayerRow;i++) 


for (j= 
‘ 


7j<OutputLayerColumn;j++) 


printf (vw\n\n\n"); 
all weight<<"\n\n\n"<<"Node["<<i+1<<"]["<<j+1<<"]"<<"\n"; 
for (k=0;k<InputLayerNum;k++) 
{ 
if(k%5==0) 
{ 
printf("\n"); 
all weight<<"\n"; 
上 
[ANA 
if(weight[ix OutputLayerColumn+j] [k]>0.9999999) 
weight[ix OutputLayerColumn+j] [Kk]=1.0; 
if(weight[ix OutputLayerColumn+j] [k]<0.0000001) 
weight[ix OutputLayerColumn+j] [k]=0.0; 
#1I17171111111111111111111111111111111111111111111/ 
printf ("%f ",weight[i*OutputLayerColumn+j][k]); 
all_weight < < setprecision (8) < < setiosflags (ios:: fixed) < < weight [ix 
OutputLayerColumn+j] [k]<<" ed 
和 
} 
ofstream winner_node ("相关 数据 \\ 输 出 数据 \\ 获 胜 节点 .txt", ios::out); 
for (i=0;i<OutputLayerRow;i++) 
for (j=0;j<OutputLayerColumn;j++) 
{ 
if (flag [i] [3]==100) 
{ 
printf ("\n\n\n"); 
winner weight<<"\n\n\n"<<"Node["<<i+1<<"]["<<j+1<<"]"<<"\n"; 
for (k=0; k< InputLayerNum; k++) 
{ 
if(k%5==0) 
{ 
printf("\n"); 
winner weight<<"\n"; 
} 
A¥# 101717117117111111111111111111111111111111111111111 
if(weight [ix OutputLayerColumn+j] [k]>0.9999999) 
weight[ix OutputLayerColumn+j] [k]=1.0; 
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if(weight [ix OutputLayerColumn+j] [k]<0.0000001) 
weight[ix OutputLayerColumn+j] [Kk]=0.0; 
关 [LVUUAUAALAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA 
printf("%f "weight[ix OutputLayerColumn+j][k]); 
winner weight < < setprecision (8) < < setiosflags (ios:: fixed) << weight [i* 
OutputLayerColumn+j] [k]<<" Er 
} 


winner node<<"Node["<<i+1<<"]["<<j+1l<<"]"<<endl; 


} 
Printf("\n")7 
[AMMAN 
// 网 络 测试 
test netWork 1(); 
test netWork 2(); 
} 
/ 尖 尖 关 关 尖 关 关 关 关 六 关 六 关 关 六 关 关 六 关 并 并 关 并 并 六 并 关 关 关 六 六 六 关 并 并 并 关 关 尖 并 闪 尖 关 关 并 并 关 并 关 并 并 关 / 
// 利 用 标准 数据 测试 训练 后 的 网 络 
/ 尖 关 尖 关 关 关 关 关 关 尖 关 尖 尖 关 关 关 关 关 关 关 尖 尖 尖 关 关 尖 关 闪光 关 尖 关 尖 尖 关 关 关 关 关 关 关 尖 尖 尖 关 关 关 关 关 关 关 尖 关 关 关 关 关 关 关 关 / 
void test netWork 1() 
' 
ofstream test1(" 相 关 数 据 \\ 输 出 数据 \\ 标 准 测试 .txt",ios: :out); 
char character [26]; 
for (i=0;i<26;i++) 
character [i]= (65+i); 
for (1=0;1<26;1++) 
{ 


for (i=0;i<OutputLayerRow;i++) 
for (j=0;j<OutputLayerColumn;j++) 
distance[i* OutputLayerColumn+j]=0.0; 
min distance=1000; 
for (i=0;i<OutputLayerRow;i++) 
for (j=0;j<OutputLayerColumn;j++) 
{ 
for (m=0;m< 7;m++) 
for (n=0;n<5;n++) 
distance[ix OutputLayerColumn+j]+= (long double) 
pow(( (long double) inputMode [1] [m] [n] - (long double) weight [i * 
OutputLayerColumn+j] [mx 5+n]),2); 
if(distance[i* OutputLayerColumn+j]<min distance) 
{ 
min distance=distance[i* OutputLayerColumn+j]; 


temp row=i; 
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temp column=j; 


} 


testl<<character[1]<<"'s winner is Node["<<temp row+1<<"]["<<temp_ 


column+l<<"]"<<endl<<endl; 


} 


/关内 关 尖 闫 关 尖 关 关 关 尖 尖 关 关 尖 关 尖 尖 关 尖 尖 关 尖 尖 尖 关 关 尖 关 尖 尖 尖 尖 尖 关 尖 关 关 关 尖 关 关 关 关 关 尖 关 关 关 关 关 关 关 关 关 关 关 关 关 人 
// 利 用 非 标 准 数据 测试 训练 后 的 网 络 
/ 汪 关 关 关 关 关 六 关 关 闪闪 尖 关 闪闪 关 尖 闪闪 尖 尖 并 关 闫 并 闫 尖 关 尖 兴 并 尖 并 关 并 并 关 尖 闪闪 尖 关 闪闪 尖 关 其 尖 尖 关 并 关 关 关 关 闫 关 闪闪 关 / 
void test netWork 2() 
{ 
ofstream test2 ("相关 数 据 \\ 输 出 数据 \\ 非 标准 测试 .txt",ios: :out); 
char character [26]; 
FILE * pf= fopen ("相关 数据 \\ 输 入 数据 \\ 非 标准 数据 测试 .txt", "at"); 
if (pf==NULL) 
{ 
cout<<"Can not open input file!\n"; 
exit (0); 
} 
for (i=0;i<26;i++) 
for (j=0;j<7;j++) 
for (k=0;k<5;k++) 
fscanf (pf,"%d", &ginputMode [i] [j] [k]); 
for (i=0;i<26;i++) 
character [i]= (65+i); 
for (l=0;1<26;1++) 
{ 
for (i=0;i<OutputLayerRow;i++) 
for (j=0;j<OutputLayerColumn;j++) 
distance[i* OutputLayerColumn+j]=0.0; 
min distance=1000; 
for (i=0;i<OutputLayerRow;i++) 
for (j=0;j<OutputLayerColumn;j++) 
{ 
for (m=0;m< 7;m++) 
for (n=0;n<5;n++) 
distance[ix OutputLayerColumn+j]+= (long double) 
pow(((long double) inputMode [1] [m] [n] - (long double) weight [i * 
OutputLayerColumn+j] [mx 5+n]),2); 
if(distance[i* OutputLayerColumn+j]<min distance) 
{ 
min distance=distance[i* OutputLayerColumn+j]; 


temp row=i; 
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} 


test2<<char 


结果 分 析 


-化 处 理 , 然 后 初始 化 距离 变量 
机 取 一 个 输入 模式 并 进行 归 
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运行 结果 如 图 10-9 
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图 10-9 程序 ; 


Clr] 
CRT] 
CERT 


CERT 


Cn] 


0HHHH 
Grrr] 


I 


3 - 99008 
9 .9080000 
-000900 


900990 


TT 


9000 


TT] 


.98d898 


TT] 


DL] 


LT] 
0000 
G000 

G0000 

P0806 

8 


TT] 


["<<temp row+1<< 


"] [" 


神经 网 络 聚 类 方 


序 对 输出 层 各 权 向 量 赋 小 随机 数 并 进行 归 
为 0, 建立 初始 优胜 邻 域 和 学 习 率 的 初 值 。 从 训练 集中 随 
-化 处 理 , 计算 竞争 层 每 个 节点 和 输入 模式 的 欧 氏 距离 , 欧 


过 
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程 中 权 值 调整 域 随 训 练 时 间 收 缩 。 对 优胜 邻 域内 的 所 有 节点 调整 权 值 。 
ws (十 1) = ws(t) t+alt, NLzf — wt)] 宇 一 1,2 EN (2) 
(10-8) 
其 中 ,a(t,N) 是 训练 时 间 上 和 邻 域内 第 7 个 神经 元 与 获胜 神经 元 j “之 间 的 拓扑 距离 N 的 
函数 。 当 学 习 率 a(1) 过 awin 时 ,训练 结束 。 然 后 利用 标准 数据 测试 训练 后 的 网 络 , 再 利 
非 标准 数据 测试 训练 后 的 网 络 。 


10.6 SOM 算法 的 特点 及 应 用 


10.6.1 SOM 特点 


优点 是 : 它 将 相 邻 关系 强加 在 秘 质 心 上 , 所 以 , 互 为 邻居 的 能 之 间 比 非 邻 居 的 簇 之 间 
更 相关 。 这 种 联系 有 利于 聚 类 结果 的 解释 和 可 视 化 。 

缺点 是 : 用 户 必 选 选择 参数 . 邻 域 函 数 .网 格 类 型 和 质心 个 数 ; @ 一 个 SOM 秘 通 
常 并 不 对 应 单个 自然 侯 , 可 能 有 自然 侯 的 合并 和 分 裂 。 例 如 , 像 其 他 基于 原型 的 聚 类 技术 
一 样 , 当 自然 能 的 大 小 \ 形 状 和 密度 不 同时 ,SOM 倾向 于 分 裂 或 合并 它们 。@SOM 缺乏 
具体 的 目标 函数 。SOM 受 限 于 质心 之 间 的 地 形 约束 (为 了 更 好 地 近似 数据 的 质心 集合 ); 
但 是 SOM 的 成 功 不 能 用 一 个 函数 来 表达 。 这 可 能 使 得 比较 不 同 的 SOM 聚 类 的 结果 是 
困难 的 。@SOM 不 保证 收敛, 尽管 实际 中 它 通常 收敛 。 


10.6.2 SOM 应 用 


1. 汽 轮 发 电机 多 故障 诊断 的 SOM 神经 网 络 方法 


汽 轮 发 电机 组 的 振动 故障 具有 多 样 性 的 特点 ,经 常 出 现 多 种 故障 同时 发 生 的 情况 。 
传统 的 BP 神经 网 络 方法 可 对 单一 故障 有 效 诊断 , 若 要 对 多 故障 进行 诊断 , 则 需 对 各 种 多 
故障 样本 进行 学 习 , 使 输入 空间 在 训练 过 程 中 被 样本 空间 完全 覆盖 ,将 大 大 增加 样本 空间 
及 学 习 训练 负担 ,同时 网 络 归 纳 、 联 想 能 力 随 之 大 幅度 下 降 ,诊断 难以 实施 。 因 此 ,可 以 将 
自 组 织 特征 映射 (SOM) 神 经 网 络 用 于 汽 轮 发 电机 组 的 振动 多 故障 诊断 ,用 单一 故障 样本 
对 网 络 进行 训练 ,根据 输出 神经 元 在 输出 层 的 位 置 对 多 故障 进行 判断 。 


2. 基于 SOM 神经 网 络 的 柴油 机 故障 诊断 

利用 神经 网 络 的 非 线 性 映射 及 其 高 度 的 自 组 织 和 自学 习 能 力 ,将 SOM 网 络 应 用 于 
柴油 机 的 故障 诊断 。 利 用 传感器 获得 柴油 机 喷射 系统 的 燃油 压力 波形 ,对 波形 进行 时 域 
分 析 和 特征 提取 。 根 据 所 取得 故障 信息 及 其 对 应 的 故障 类 型 来 构造 网 络 结构 ,用 单一 故 
障 样本 对 网 络 进行 训练 ,根据 输出 神经 元 在 输出 层 的 位 置 对 故障 进行 判断 。 
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10.7 小 结 


Kohonen 1982 年 提出 的 SOM 自 组 织 映射 神经 网 络 是 一 个 巧妙 的 神经 元 网 络 , 它 建 
立 在 一 维 、 二 维 或 三 维 的 神经 元 网 络 上 ,用 于 捕获 包含 在 输入 模式 中 感 兴趣 的 特征 ,描述 
在 复杂 系统 中 从 完全 混乱 到 最 终 出 现 整体 有 序 的 现象 。 

自 组 织 映射 也 可 以 看 成 向 量 量化 器 ,从 而 提供 一 个 导出 调整 权 值 向 量 的 更 新 规则 的 
原理 性 方法 。 此 方法 明确 地 强调 邻 域 函 数 作为 概率 密度 函数 的 作用 。 

本 章 讨论 竞争 算法 的 学 习 过 程 ,在 此 基础 上 进一步 介绍 了 自 组 织 SOM 神经 网 络 的 
结构 .工作 原理 。 最 后 介绍 了 SOM 神经 网 络 在 聚 类 分 析 、 复 合 材料 的 损伤 检测 中 的 具体 
应 用 。 


1. 请 介绍 SOM 神经 网 络 的 基本 构造 及 工作 原理 。 
2. 自 组 织 神经 网 络 由 输入 层 和 竞争 层 组 成 , 设 初 始 权 向 量 已 归 一 化 为 
W=[1 0], W=[0 —1] 
现 有 4 个 输入 模式 , 均 为 单位 向 量 。 
R=1Z45, EK=17—135, X=1L90, X=1L=180° 
试用 WTA 学 习 算 法 调整 权 值 ,给 出 前 20 次 的 权 值 学 习 结果 。 
3. 给 定 5 个 四 维 输入 模式 如 下 。 
X=[l 0 0 0], X=[l 1 0 0, X=[1 1 1 0]， 
二 于 
试 设计 一 个 具有 5X5 神经 元 的 平面 SOM 网 络 ,学 习 率 (2) 在 前 1000 步 训练 中 从 0. 5 线 
性 下 降 到 0. 04 ,然后 在 训练 到 10 000 步 时 减 小 到 0, 优 胜 邻 域 半径 初始 值 设 为 相 邻 的 2 个 
节点 ,1000 个 训练 步 时 降 为 0, 即 只 含 获胜 神经 元 。 每 训练 200 步 记录 一 次 权 值 ,观察 其 
在 训练 过 程 中 的 变化 情况 。 给 出 训练 结束 后 ,5 个 输入 模式 在 输出 平面 上 的 映射 图 ,并 观 
察 下 列 输入 向 量 映射 区 间 。 
Fi=[1 0 0 1], F=[l 1 0 1], F=[0 1 1 0]， 
VE a Es i i 
4. 介绍 一 例 SOM 神经 网 络 的 具体 应 用 。 
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第 11 章 数据 挖掘 的 发 展 


11.1 Web 挖掘 


随 着 互联 网 上 信息 不 断 呈 现 爆炸 式 的 增长 ,互联 网 企业 在 这 些 海量 的 数据 信息 面前 
显得 更 加 手足 无 措 。 合 理 地 利用 网 络 上 面 的 数据 信息 来 提高 网 站 的 用 户 体验 成 为 首要 需 
求 。 有 需求 就 有 进步 ,数据 挖掘 技术 就 这 样 被 引入 了 互联 网 领域 ,从 而 发 展 成 为 一 个 独立 
的 研究 方向 一 一 Web 数据 挖掘 。 


11.1.1 Web 数据 挖掘 定义 


Web 数据 挖掘 就 是 传统 数据 挖掘 技术 在 互联 网 领域 的 应 用 , 它 的 目标 就 是 从 海量 
的 、 含 噪声 的 无 结构 化 的 网 络 数据 中 提取 出 潜藏 在 背后 的 有 价值 的 知识 。Web 数据 挖 
据 主 要 包含 基于 网 页 内 容 的 挖掘 、 基 于 用 户 使 用 习惯 的 挖掘 和 基于 网 页 结构 的 挖 气 。 它 
们 所 使 用 的 算法 和 应 用 领域 是 不 同 的 。 

在 如 今 互 联网 技术 飞速 发 展 的 年 代 , 传 统 的 数据 挖掘 技术 已 经 , 远 远 不 能 满足 现在 
Web 数据 挖掘 的 要 求 了 。Web 数据 挖掘 面临 着 更 加 严峻 的 挑战 ,首先 ,网 络 上 面 收集 的 
数据 信息 是 无 结构 或 非 结 构 化 的 ,差异 化 的 数据 源 给 数据 预 处 理 加 大 了 难度 ;其 次 ,互联 
网 上 的 信息 时 刻 都 以 GB 为 单位 在 不 断 增长 ,并 且 是 在 动态 变化 的 ,所 以 我 们 在 做 Web 
数据 挖掘 系统 的 时 候 应 考虑 系统 的 实时 性 ;最 后 ,互联 网 的 用 户 形形色色 各 不 相同 ,他 们 
有 着 不 同 的 知识 背景 .年 龄 .收入 和 兴趣 爱好 等 ,这 就 决定 了 他 们 感 兴趣 的 内 容 是 有 差别 
的 。 总 而 言 之 ,现在 互联 网 实际 需求 给 Web 数据 挖掘 提出 了 更 高 的 要 求 ,主要 包括 系统 
的 并 行 性 、 更 高 的 挖掘 效率 、 实 时 动态 性 和 有 效 地 组 织 和 管理 数据 的 能 力 。 


11.1.2 Web 数据 挖掘 分 类 


Web 数据 挖掘 根据 研究 的 对 象 不 同 , 可 以 分 为 基于 网 页 内 容 的 挖掘 .基于 用 户 使 用 
习惯 的 挖掘 和 基于 网 页 结构 的 挖掘 三 类 。 它 们 各 自 应 用 的 算法 和 应 用 领域 如 图 11-1 
所 示 。 


1. 基于 网 页 内 容 的 挖掘 


基于 网 页 内 容 的 挖掘 是 指 通过 对 网 页 中 的 文档 ,数据 和 内 容 进 行 挖掘 并 获取 知识 的 
过 程 。 目 前 的 Web 数据 挖掘 要 求 对 网 页 中 的 各 类 内 容 信息 都 能 加 以 处 理 , 从 网 页 内 容 的 
角度 来 讲 , 基 于 网 页 内 容 的 挖掘 可 以 分 为 多 媒体 信息 挖掘 和 文档 信息 挖掘 两 种 ,按照 采 
方法 的 不 同 , 它 又 可 以 分 为 信息 抽取 方法 和 数据 库 方法 两 种 。 信 息 抽 取 方 法 指 的 是 利 


数据 挖掘 的 发 展 


Web 数 据 挖掘 


基于 网 页 内 容 的 挖掘 | 基于 用 户 使 用 习惯 的 挖掘 基于 网 页 结构 的 挖 据 


聚 类 聚 类 XML(DTD) 挖 掘 
关联 规则 关联 规则 HTML 文 档 挖掘 
语义 Web 个 性 化 服务 导航 

网 页 内 容 挖掘 商务 智能 
搜索 结果 挖掘 客户 分 析 
文本 挖掘 用 途 分 析 

多 媒体 挖掘 系统 改善 建议 
电子 商务 
入 侵 检测 
Web 代 理 


图 11-1 Web 数据 挖掘 的 分 类 


信息 抽取 技术 来 处 理 无 结构 或 半 结 构 的 网 页 数据 ,提高 和 优化 搜索 信息 的 质量 。 数 据 库 
方法 指 的 是 首先 利用 数据 转换 技术 将 无 结构 的 数据 转换 成 数据 库 对 应 的 有 结构 的 数据 ， 
然后 再 利用 数据 挖掘 技术 对 数据 进行 挖掘 。 


2. 基于 用 户 使 用 习惯 的 挖掘 


用 户 日 常 访问 网 络 的 时 候 会 产生 大 量 的 记录 信息 ,而 网 络 服务 器 会 自动 记录 并 存储 
下 这 些 信息 。 这 些 信息 中 记录 了 用 户 的 访问 网 址 ` 访 问 时 间 、 传 输 的 内 容 和 用 户 的 IP 地 
址 等 数据 。 这 些 数据 都 被 存储 在 用 户 的 访问 日 志文 件 中 , 它 通常 能 够 反映 出 用 户 的 访问 
规律 ,个 人 兴趣 和 整个 上 网 行为 。 基 于 用 户 使 用 习惯 的 挖掘 所 研究 的 对 象 就 是 用 户 访问 
日 志文 件 ,通过 挖掘 日 志 数据 来 预测 用 户 的 上 网 行为 和 趋势 等 。 基 于 用 户 使 用 习惯 的 挖 
气 可 以 分 为 个 性 化 挖掘 和 用 户 访问 模式 挖掘 两 类 ,个 性 化 挖掘 主要 针对 于 研究 个 人 的 偏 
好 ,其 目的 就 是 为 不 同 访问 模式 的 用 户 提供 不 同 的 动态 化 服务 建议 ,而 用 户 访问 模式 挖掘 
主要 是 通过 分 析 用 户 的 访问 日 志 : 来 总 结 用 户 的 访问 习惯 和 倾向 ,发 现 网 页 空间 最 高 效 的 
逻辑 结构 的 。 


3. 基于 网 页 结构 的 挖掘 


基于 网 页 结构 的 挖掘 就 是 通过 研究 站 点 之 间 的 组 织 关 系 、 相 互 引用 和 链接 的 关系 以 
及 网 页 文档 结构 来 挖掘 出 知识 。 基 于 网 页 内 容 的 挖掘 对 象 主要 是 内 部 网 页 文档 ,而 基于 
页 结构 的 挖掘 的 对 象 主要 是 外 部 引用 和 超 链接 的 结构 。 它 的 挖掘 目的 是 寻找 潜藏 在 网 
页 结构 背后 的 有 用 模式 ,通过 对 网 页 的 应 用 和 超 链接 进行 分 析 来 找 出 权威 的 页 面 ,并 发 现 
页 的 结构 以 便 更 有 利于 用 户 阅读 。 
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11.1.3 Web 数据 挖掘 的 数据 源 


前 面 已 经 提 到 了 Web 数据 挖掘 的 数据 源 一 般 具 有 多 类 型 、 无 规律 .无 结构 和 多 噪声 
的 特点 。 数 据 源 的 巨大 差异 性 决定 我 们 必须 对 其 进行 分 类 ,并 加 以 区 别 地 处 理 和 对 待 。 
数据 源 信息 主要 包括 以 下 几 类 : 


1. 用 户 的 注册 信息 


用 户 的 注册 信息 是 最 直接 .最 简单 的 数据 源 信息 , 它 一 般 是 用 户 注册 的 时 候 主动 留 下 
来 的 信息 ,通常 包括 性 别 、 居 住地 、 姓 名 、 职 业 、 收 入 、 邮 箱 和 兴趣 爱好 等 。 这 些 信 息 通常 和 
用 户 的 访问 日 志 一 起 使 用 ,来 定位 用 户 所 属 的 群体 ,描述 用 户 的 大 概 背 景 情况 。 


2. 网 页 内 容 信息 


网 页 内 容 信息 主要 包括 文档 信息 和 多 媒体 信息 两 类 ,再 细 分 下 去 就 包括 文章 、 图 片 、 
音频 ,视频 、 广 告 .评论 等 内 容 。Web 数据 挖掘 通常 会 对 这 些 不 同 的 信息 进行 提取 标签 和 
单词 向 量 ,以 便 描 述 内 容 的 种 类 ,方便 进行 聚 类 、 分 类 或 相似 度 比 较 ,网 页 内 容 信息 是 推荐 
系统 最 常用 的 数据 源 。 


3. 网 页 站 点 结构 信息 


网 页 站 点 结构 信息 是 Web 数据 挖掘 最 主要 的 对 象 之 一 , 它 包 括 网 站 之 间 的 引用 和 链 
接 关 系 , 网 站 的 组 织 结构 信息 等 。 通 过 研究 网 页 站 点 结构 信息 可 以 发 现 用 户 的 浏览 规律 
和 习惯 ,可 以 帮助 我 们 优化 网 页 站 点 的 组 织 结构 ,提高 超 链接 的 合理 性 ,形成 清晰 的 站 点 
导航 视图 。 


4. 用 户 搜索 数据 


用 户 在 互联 网 上 的 行为 已 经 离 不 开 了 搜索 引擎 (包括 站 内 搜索 和 互联 网 搜索 ) 。 搜 索 
引擎 可 以 帮助 用 户 快速 地 找到 他 们 感 兴趣 的 信息 ,达到 他 们 上 网 的 目的 ,所 以 用 户 每 次 提 
交 给 搜索 引擎 的 查询 信息 会 反映 用 户 的 兴趣 、 偏 好 和 上 网 目的 等 。 通 过 对 这 些 搜索 数据 
信息 的 分 析 和 挖掘 ,我 们 就 可 以 更 加 了 解 用 户 的 需求 和 使 用 习惯 ,并 通过 挖掘 搜索 的 关键 
字 , 来 优化 内 容 的 标签 和 单词 向 量 ,提高 搜索 的 准确 性 。 


5. 网 页 日 志 信 息 


网 页 日 志 信息 是 记录 用 户 访问 站 点 情况 的 数据 信息 , 它 一 般 保 存在 网 页 服务 器 或 代 
理 服 务 器 中 。 网 页 服务 器 又 包含 服务 器 和 客户 端 ,保存 在 客户 端的 网 页 日 志文 档 就 是 
cookie logs, 而 保存 在 服务 器 的 网 页 日 志 就 包含 error logs 和 server logs 两 种 ,例如 常用 
的 日 志 格 式 是 Apache 的 扩展 日 志 格式 (ECLF)。 
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6. 代理 服务 器 数据 


代理 服务 器 是 用 来 缓存 用 户 与 站 点 服务 器 之 间 交 互 数据 的 中 介 服 务 器 ,其 目的 是 组 
解 网 络 压力 ,提高 网 页 浏览 的 速度 。 在 代理 服务 器 端 一 般 存储 了 所 有 用 户 访问 网 站 的 记 
录 信息 ,通过 对 这 些 数据 进行 挖掘 就 能 有 效 地 得 到 用 户 的 访问 模型 信息 ,为 用 户 提高 个 性 
化 的 推荐 和 营销 策略 。 


11.1.4 Web 数据 挖掘 中 知识 的 分 类 


总 体 来 说 , Web 中 的 知识 可 以 分 为 三 类 。 第 一 类 知识 叫做 隐 性 知识 , 它 一 般 存在 于 
非 结构 化 的 文本 当中 ,比如 用 户 发 表 的 留言 或 博文 等 ;第 二 类 知识 是 显 性 知识 , 它 显 性 地 
以 结构 化 的 方式 存在 于 网 页 中 的 ,如 用 户 资料 \ 标 签 或 评分 等 ;第 三 类 知识 是 衍生 知识 ,是 
指 对 收集 到 的 数据 进行 挖掘 得 到 的 知识 ,是 隐 性 知识 和 显 性 知识 衍生 出 来 的 知识 ,如 
图 11-2 所 示 。 


衍生 知识 : 搜索 、 
聚 类 和 文本 挖掘 


隐 性 知识 : 留言 、 
社区 、 日 志和 博文 


显 性 知识 : 标签 、 
评分 和 用 户 资料 


图 11-2 Web 数据 挖掘 知识 分 类 


1. 隐 性 知识 


隐 性 知识 是 以 非 结构 化 的 形式 隐藏 在 站 点 中 或 站 点 外 的 知识 , 它 一 般 包 括 博文 社 
\ 论 坛 ,访问 日 志和 留言 板 等 内 容 。 隐 性 知识 的 非 结构 特性 决定 了 其 一 般 不 能 被 直接 使 
,需要 事先 对 其 进行 相应 的 数据 预 处 理 才能 做 进一步 的 深度 数据 挖掘 。 


2. 显 性 知识 


民风 


显 性 知识 一 般 是 用 户 直 接 传递 给 站 点 的 结构 化 的 知识 ,一 般 包 括 评论 、 评 分、 投票 标 
签 . 推 荐 和 用 户 资料 等 内 容 。 这 些 数据 的 结构 化 特性 方便 了 网 站 研究 人 员 的 进一步 分 析 
处 理 , 一 般 只 要 对 其 做 些 相应 的 数据 收集 和 整理 工作 就 可 以 作为 后 续 深度 数据 挖掘 的 
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材料 。 
3. 衍生 知识 


衍生 知识 一 般 是 对 隐 性 知识 和 显 性 知识 进行 进一步 深度 数据 挖掘 的 成 果 , 它 处 于 
数据 挖掘 “金字 塔 " 的 顶端 部 位 ,一 般 包括 聚 类 、 预 测 分 析 、 智 能 搜索 、 文 本 挖掘 、 推 荐 引 
擎 和 发 现 模式 等 内 容 。 衍 生 知识 是 数据 挖掘 过 程 的 最 终结 果 , 体 现 着 数据 挖掘 得 到 的 
智慧 ,研究 人 员 一 般 都 会 对 衍生 知识 做 进一步 的 可 视 化 处 理 , 然 后 对 其 进行 相应 的 知 
识 部 署 ,提出 相应 的 应 用 建议 ,并 将 知识 部 署 到 能 解决 现实 问题 的 方案 中 ,完成 对 知识 
的 最 终 利用 。 


11.1.5 Web 数据 挖掘 的 关键 问题 


Web 数据 挖掘 就 是 传统 数据 挖掘 技术 在 互联 网 中 的 具体 应 用 。 传 统 数 据 挖掘 技术 
面向 的 是 有 组 织 有 结构 的 数据 库 中 的 数据 ,而 Web 数据 挖掘 技术 面向 的 是 庞大 的 、 分 布 
广泛 的 互联 网 络 信息 服务 系统 。 对 于 这 个 特殊 的 领域 ,具有 很 多 其 他 领域 所 不 具有 的 特 
点 ,在 进行 Web 数据 挖掘 的 时 候 , 会 遇 到 了 大 量 的 实际 问题 和 挑战 ,主要 包含 以 下 几 个 
方面 : 

1. 网 页 的 动态 性 


互联 网 是 一 个 实时 不 断 更 新 的 、 动 态 变 化 的 信息 服务 系统 ,特别 是 在 Web 2.0 时 代 
的 互联 网 ,网 络 信息 是 在 用 户 的 交互 访问 中 生成 的 。 这 就 意味 着 我 们 在 做 Web 数据 挖掘 
的 时 候 ,目标 数据 是 时 刻 更 新 变换 的 。 如 何 保证 Web 数据 挖掘 的 结果 是 最 新 的 且 符 合 实 
时 性 的 需求 ,值得 我 们 考虑 和 研究 。 


2. 提取 用 户 真 正 感 兴趣 的 信息 


互联 网 上 的 信息 是 海量 的 ,但 是 用 户 感 兴趣 的 内 容 又 是 有 限 的 ,这 就 意味 着 绝 大 多 数 
的 网 页 内 容 对 用 户 来 说 是 没有 吸引 力 的 。 如 何 规避 网 页 上 用 户 不 感 兴趣 的 内 容 , 而 将 用 
户 感 兴趣 的 内 容 呈 现在 用 户 面前 ,是 Web 数据 挖掘 要 解决 的 主要 问题 之 一 ,特别 是 对 于 
搜索 引擎 这 样 的 信息 服务 检索 系统 ,信息 的 抽取 显得 尤为 重要 。 

3. 面 对 广 泛 的 用 户 群 

Web 数据 挖掘 所 面 对 的 是 形形色色 的 用 户 群 ,他 们 的 兴趣 、 身 份 背景 年 龄 层次 、 知 
识 结 构 、 上 网 目的 千差万别 。 如 何 正 确 而 合理 地 对 用 户 进行 聚 类 和 分 类 ,并 给 不 同 的 用 户 


群体 提供 不 同 的 服务 ,达到 互联 网 服务 用 户 满意 度 的 最 大 化 ,是 Web 数据 挖掘 的 核心 
问题 。 


4. Web 网 页 文档 结构 复杂 
Web 网 页 文档 并 没有 统一 的 结构 .它们 是 由 风格 各 异 、 排 版 各 不 相同 的 内 容 组 成 的 。 
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这 就 像 是 在 一 个 没有 任何 索引 分 类 的 混乱 的 大 型 图 书馆 中 要 收集 整理 某 一 部 分 图 书 , 难 
度 可 想 而 知 ,所 以 这 对 Web 数据 挖掘 过 程 中 的 数据 收集 技术 和 数据 预 处 理 技术 提出 了 更 


5. 海量 的 数据 源 


互联 网 中 的 信息 是 以 GB 为 单位 来 计算 的 ,并 且 随 时 随 刻 都 在 不 断 地 增长 ,对 于 如 此 
大 的 信息 量 , 不 可 能 用 一 个 数据 仓库 来 存储 ,这 对 Web 数据 挖掘 的 挖掘 算法 和 系统 提出 
了 更 高 的 要 求 。 


11.2 空间 数据 挖 气 


空间 数据 是 人 们 借以 认识 自然 和 改造 自然 的 重要 数据 。 空 间 数据 库 含 有 空间 数据 和 
非 空间 数据 ,空间 数据 可 以 是 地 表 在 地 理 信息 系统 (Geography Information System,GIS) 
中 的 二 维 投影 ,也 可 以 是 分 子 生物 学 中 的 蛋白 质 分 子 结构 等 : 非 空间 数据 则 是 除 空 间 数 据 
以 外 的 一 切 数据 。 所 以 ,也 可 以 认为 空间 数据 库 是 通用 的 数据 库 , 其 他 数据 库 是 空间 数据 

由 于 雷达 、 红 外 光电 、 卫 星 .电视 摄像 .电子 显 微 成 像 .CT 成 像 等 各 种 宏观 与 微观 传 
感 器 的 使 用 ,空间 数据 的 数量 ,大 小 和 复杂 性 都 在 飞快 地 增长 ,已 经 远 远 超 出 了 人 的 解 译 
能 力 ,终端 用 户 不 可 能 详细 地 分 析 所 有 这 些 数据 ,并 提取 感 兴趣 的 空间 知识 。 因 此 ,利用 
空间 数据 挖掘 和 知识 发 现 (Spatial Data Mining and Knowledge Discovery，SDMKD) 从 
空间 数据 库 中 自动 或 半自动 地 挖掘 隐藏 在 空间 数据 库 中 的 不 明确 的 、 隐 含 的 知识 , 变 得 越 


11.2.1 空间 数据 挖掘 的 定义 与 特点 


空间 数据 挖掘 (Spatial Data Mining) ,也 称 基 于 空间 数据 库 的 数据 挖掘 ,作为 数据 挖 
掘 的 一 个 新 的 分 支 ,是 在 空间 数据 库 的 基础 上 ,综合 利用 统计 学 方法 ,模式 识别 技术 、 人 工 
智能 方法 .神经 网 络 技术 .粗糙 集 、 模 糊 数学 .机 器 学 习 \ 专 家 系统 等 技术 和 方法 ,从 大 量 的 
空间 数据 (例如 生产 数据 ,管理 数据 .经 营 数据 或 遥感 数据 ) 中 分 析 获 取 人 们 可 信 的 、 新 颖 
的 ` 感 兴趣 的 、 隐 藏 的 .事先 未 知 的 潜在 有 用 的 和 最 终 可 理解 的 知识 。 简 单 地 讲 , 空 间 数 
据 挖掘 是 指 从 空间 数据 库 中 提取 隐 含 的 ,用户 感 兴趣 的 空间 和 非 空间 模式 .普遍 特征 、 规 
则 和 知识 的 过 程 。 由 于 空间 数据 的 复杂 性 ,空间 数据 挖掘 不 同 于 一 般 的 事务 数据 挖掘 , 它 
有 以 下 一 些 特点 : 

(1) 数据 源 十 分 丰富 .数据 量 非常 庞大 ,数据 类 型 多 , 存 取 方法 复杂 ; 

(2) 涉及 领域 十 分 广泛 , 凡 与 空间 位 置 相关 的 数据 ,都 可 对 其 进行 挖掘 ; 

(3) 挖掘 方法 和 算法 非常 多 ,而且 大 多 数 算法 比较 复杂 ,难度 大 ; 

(4) 知识 的 表达 方式 多 样 ,对 知识 的 理解 和 评价 依赖 于 人 对 客观 世界 的 认 知 程度 。 
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11.2.2 空间 数据 挖掘 的 体系 结构 


空间 数据 挖掘 系统 可 以 分 为 三 层 结构 ,如 图 11-3 所 示 。 


用 户 界面 人 机 交换 系统 
下 下 [ 
1 
空 ET 发 现 的 知识 
ED i 
CC 与 问题 相关 的 数据 “> 知识 库 管 理 系统 
数据 源 T 
了 
1 知识 运用 
空间 数据 库 管理 系统 (如 空间 决策 支持 ) 
1 
空间 数据 库 」 (、 空 间 数据 立方 体 领域 知识 库 


图 11-3 空间 数据 挖掘 的 体系 结构 


第 一 层 是 数据 源 , 指 利用 空间 数据 库 或 数据 仓库 管理 系统 提供 的 索引 、 查 询 优 化 等 功 
能 获取 和 提炼 与 问题 领域 相关 的 数据 ,或 直接 利用 存储 在 空间 数据 立方 体 中 的 数据 ,这 些 
数据 可 称 为 数据 挖掘 的 数据 源 或 信息 库 。 在 这 个 过 程 中 ,用 户 直接 通过 空间 数据 库 ( 数 据 
仓库 ) 管 理工 具 交 互 地 选取 与 任务 相关 的 数据 ,并 将 查询 和 检索 的 结果 进行 必要 的 可 视 化 
分 析 , 多 次 反复 ,提炼 出 与 问题 领域 有 关 的 数据 ,或 通过 空间 数据 立方 体 的 聚集 、 上 钼 、 下 
翻 \ 切 块 .旋转 等 分 析 操 作 , 抽 取 与 问题 领域 有 关 的 数据 ,然后 再 开始 进行 数据 挖掘 和 知识 
发 现 过 程 。 

第 二 层 是 挖掘 器 ,利用 空间 数据 挖掘 系统 中 的 各 种 数据 挖掘 方法 分 析 被 提取 的 数据 ， 
一 般 采用 交互 方式 ,由 用 户 根据 问题 的 类 型 以 及 数据 的 类 型 和 规模 ,选用 合适 的 数据 挖掘 
方法 ,但 对 于 某 些 特定 的 专门 的 数据 挖掘 系统 ,可 采用 系统 自动 地 选用 挖掘 方法 的 方式 。 

第 三 层 是 用 户 界 面 ,使 用 多 种 方式 (如 可 视 化 工具 ) 将 获取 的 信息 和 发 现 的 知识 以 便 
于 用 户 理 解 和 观察 的 方式 反映 给 用 户 ,用 户 对 发 现 的 知识 进行 分 析 和 评价 ,并 将 知识 提供 
给 空间 决策 支持 使 用 ,或 将 有 用 的 知识 存 人 领域 知识 库 内 ,在 整个 数据 挖掘 过 程 中 ,用 户 
能 够 控制 每 一 步 。 

一 般 来 说 ,数据 挖掘 和 知识 发 现 的 多 个 步骤 相互 连接 ,需要 反复 进行 人 机 交互 ,才能 
得 到 最 终 满意 的 结果 。 显 然 ,在 整个 数据 挖掘 过 程 中 ,良好 的 人 机 交互 用 户 界 面 是 顺利 进 
行 数据 挖掘 并 取得 满意 结果 的 基础 。 


11.2.3 空间 数据 挖掘 可 获得 的 知识 类 型 


作为 空间 数据 挖掘 的 主要 研究 内 容 , 我 们 首先 要 明确 从 空间 数据 库 中 可 以 发 现 哪些 
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知识 。 尽 管 数据 挖掘 中 常见 的 广义 知识 .关联 知识 .分 类 知识 . 聚 类 知识 和 预测 型 知识 5 
类 知识 同样 可 以 概括 从 空间 数据 库 发 现 的 知识 ,但 我 们 从 应 用 的 角度 将 知识 类 型 划分 得 
更 加 具体 ,使 其 更 便于 理解 和 应 用 。 由 于 GIS 数据 库 是 空间 数据 库 的 主要 类 型 , 且 可 以 
包含 遥感 图 像 数据 ,所 以 我 们 将 GIS 数据 库 与 空间 数据 库 等 同 起 来 ,并 认为 从 GIS 数据 
库 中 发 现 知 识 (Knowledge Discovery from GIS Databases) 与 SDMKD 有 相同 的 内 涵 。 
空间 数据 挖掘 所 能 发 现 的 知识 类 型 主要 包括 以 下 几 种 。 


1. 普遍 的 几何 知识 (General Geometric Knowledge) 


普遍 的 几何 知识 是 指 某 类 目标 的 数量 、 大 小 、 形 态 特征 等 的 普遍 的 几何 特征 。 我 们 既 
可 以 计算 和 统计 出 空间 目标 几何 特征 量 的 最 小 值 \、 最 大 值 ,均值 方差 等 信息 ,还 可 以 统计 
出 特征 量 的 直方 图 。 在 足够 样本 的 情况 下 ,直方 图 数据 可 转换 为 先 验 概率 使 用 ,在 此 基础 
上 ,可 根据 背景 知识 归纳 出 高 水 平 的 普 适 几何 知识 。 


2. 空间 特征 规则 (Spatial Characteristic Rules) 


空间 特征 规则 是 指 对 某 一 类 或 几 类 空间 目标 的 几何 和 属性 的 普遍 特性 的 描述 , 即 对 
共性 的 描述 。 空 间 几 何 特征 是 指 目标 的 位 置 \ 形 态 特 征 、 走 向 ,连通 性 、 坡 度 等 普遍 的 特 
征 ,空间 属性 特征 指 目标 的 数量 、 大 小 、 面 积 、 周 长 ,名 称 等 定量 或 定性 的 非 几 何 特 性 ,这 类 
规则 是 最 基本 的 ,也 是 发 现 其 他 类 型 知识 的 基础 。 

3. 空间 聚 类 规则 (Spatial Clustering Rules) 

空间 聚 类 规则 是 指 根据 空间 目标 特征 的 聚 散 程 度 将 它们 划分 到 不 同 的 组 中 ,组 与 组 
之 间 的 差别 尽 可 能 大 ,组 内 的 差别 尽 可 能 小 ,可 用 于 空间 目标 信息 的 概括 和 综合 ,如 根据 
距离 将 大 量 散 布 的 居民 点 聚 类 成 几 个 居民 区 。 在 地 震 地 区 监测 中 ,通过 对 不 同 的 空间 对 
象 进行 聚 类 ,发现 地 震 损害 的 分 布 规律 。 


4. 空间 分 类 规则 (Spatial Classification Rules) 


空间 分 类 规则 是 指 根据 目标 的 空间 或 非 空间 特征 ,利用 分 类 分 析 将 目标 划分 为 不 同 
类 别 的 规则 。 空 间 分 类 和 空间 聚 类 的 区 别 在 于 分 类 事先 知道 类 别 数 和 各 类 的 典型 特征 而 
聚 类 则 事先 不 知道 , 即 分 类 是 有 导师 的 (Supervised) 而 聚 类 是 无 导师 的 (Unsupervised) 。 


5. 空间 区 分 规则 (Spatial Discriminate Rules) 


空间 区 分 规则 是 指 两 类 或 几 类 空间 目标 之 间 几 何 的 或 属性 的 不 同 特性 , 即 可 以 区 分 
不 同类 目标 的 特征 ,是 对 个 性 的 描述 。 空 间 分 类 规则 与 空间 区 分 规则 有 所 不 同 : 分 类 规 
则 对 空间 对 象 进行 明确 分 类 .强调 的 是 分 类 精度 ,规则 的 后 件 是 类 别 , 为 了 保证 分 类 精度 ， 
一 般 在 较 低 的 概念 层次 进行 分 类 ;而 区 分 规则 是 对 已 知 类 别 的 对 象 的 对 比 ,规则 的 前 件 是 
类 别 ,一 般 是 在 较 高 概念 层次 上 的 描述 。 
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6. 空间 分 布 规律 (Spatial Distribution Rules) 


空间 分 布 规律 是 指 地 理 目 标 ( 现 象 ) 在 地 理 空 间 的 分 布 规律 。 分 为 在 水 平方 向 .垂直 
方向 ,水 平和 垂直 方向 的 联合 分 布 规律 以 及 其 他 分 布 规律 。 水 平方 向 分 布 指 地 物 (现象 ) 
在 水 平 区 域 的 分 布 规律 ,如 不 同 区 域 农作物 的 差异 ;垂直 方向 分 布 即 地 物 沿 高 程 带 的 分 
布 ,如 高 山 植被 沿 坡度 、 坡 向 分 布 规律 。 另 外 ,许多 现象 在 空间 都 具有 复杂 的 分 布 特征 , 它 
们 常常 呈现 为 不 规则 的 曲面 。 想 要 研究 这 些 现象 的 空间 分 布 趋势 ,首先 要 用 适当 的 数学 
模型 将 现象 的 空间 分 布 及 其 区 域 变 化 趋势 模拟 出 来 ,如 公用 设施 的 城乡 差异 .异域 地 物 的 
坡度 . 坡 向 分 布 等 规律 。 


7. 空间 关联 规则 (Spatial Association Rules) 


在 自然 和 人 文 界 中 ,各 种 地 理 要 素 ( 现 象 ) 的 分 布 并 不 是 孤立 的 ,它们 相互 影响 ,相互 
制约 ,彼此 之 间 存 在 着 一 定 的 联系 。 空 间 关联 规则 ,主要 是 指 空间 目标 之 间 相 离 . 相 邻 . 相 
连 , 共 生 , 包 含 .被 包含 .覆盖 、 被 禾 盖 、 交 番 等 规则 ,也 可 称 为 空间 相关 关系 。 例 如 ,居民 地 
(城镇 ) 与 道路 相连 ,道路 与 河流 的 交叉 口 是 桥梁 。 空 间 关联 规则 的 形式 有 多 种 ,目前 最 常 
见 的 一 种 空间 关联 规则 形 如 A 二 B[s%,c%], 其 中 A 和 B 是 空间 和 非 空 间 谓词 的 集合 ， 
s% 表 示 规 则 的 支持 度 ,c% 表 示 规 则 的 置信 和 度 。 


8. 空间 演变 规律 (Spatial Evolution Rules) 


如 果 空 间 数据 库 ( 数 据 仓 库 ) 中 存 有 同一 地 区 不 同时 期 数据 的 快照 (Snapshot) ,将 这 
些 不 同时 间 的 数据 进行 挖掘 处 理 , 就 可 以 发 现 地 理 要 素 ( 现 象 ) 随 时 间 动 态 发 展 的 规律 , 即 
目标 的 空间 演变 规律 。 换 言 之 ,空间 演变 规律 是 指 空 间 目 标 随时 间 变 化 的 规则 ,如 哪些 地 
区 易 变 , 哪 些 地 区 不 易 变 ,哪些 目标 易 变 、 怎 么 变 , 哪 些 目 标 固定 不 变 等 ,人 们 可 以 利用 这 
些 规 律 进行 预测 预报 。 

这 些 知识 和 规则 从 信息 内 涵 上 讲 是 有 区 别 的 ,但 从 形式 上 讲 又 是 密切 联系 的 ， 对 于 
空间 分 布 的 图 形 描述 既 传递 了 空间 分 布 信息 ,又 传递 了 空间 趋势 和 空间 对 比 信息 。 如 从 
中 国人 口 分 布 图 上 ,我 们 既 可 以 了 解 人 口 分 布 情况 ,又 可 以 感受 人 口 分 布 的 基本 趋势 , 同 
时 ,各 区 域 之 间 的 人 口 密度 对 比 也 反映 得 一 清二 楚 。 这 些 不 同类 型 的 知识 之 间 不 是 相互 
孤立 的 ,在 解决 实际 问题 时 ,经 常 要 同时 使 用 多 种 规则 。 


11.2.4 空间 数据 挖掘 的 方法 


空间 数据 挖掘 的 方法 并 不 是 某 一 种 具体 的 全 新 的 方法 , 它 的 许多 方法 在 地 理 信息 系 
统 、 地 理 空间 认 知 、 地 图 数据 处 理 、 地 学 数据 分 析 等 领域 内 早已 广泛 应 用 。 可 以 说 空间 数 
据 挖掘 是 多 学 科 和 多 种 技术 交叉 融合 的 新 兴 边 缘 学 科 ,汇集 了 人 工 智 能 .专家 系统 、 机 器 
学 习 、 数 据 库 和 统计 学 等 学 科 的 成 果 ,因而 数据 挖掘 的 方法 是 丰富 多 彩 的 。 针 对 空间 数据 
库 的 特点 ,空间 数据 挖掘 的 方法 主要 有 以 下 几 种 。 
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1. 统计 分 析 方 法 (Statistical Analysis Approach) 


统计 方法 一 直 是 分 析 空 间 数据 的 常用 方法 ,有 着 较 强 的 理论 基础 ,拥有 大 量 的 算法 ， 
可 有 效 地 处 理 数 值 型 数据 。 这 类 方法 有 时 需要 数据 满足 统计 不 相关 的 假设 ,但 很 多 情况 
下 这 种 假设 在 空间 数据 库 中 难以 满足 ,另外 ,统计 方法 难以 处 理 字符 型 数据 。 应 用 统计 方 
法 需要 有 领域 知识 和 统计 知识 ,一 般 由 具有 统计 经 验 的 领域 专家 来 完成 。 

以 变 差 图 数 (Variogram) 和 Kriging 方法 为 代表 的 地 学 统计 (Geostatistics) 方 法 是 地 
学 领域 特有 的 统计 分 析 方 法 ,由 于 考虑 了 空间 数据 的 相关 性 ,地 学 统计 在 空间 数据 统计 和 
预测 方面 比 传 统统 计 学 方法 更 加 合理 有 效 ,因而 在 空间 数据 挖掘 中 也 可 以 充分 发 挥 作用 。 


2. 空间 分 析 方 法 (Spatial Analysis Approach) 


空间 分 析 方 法 是 GIS 的 关键 技术 ,是 GIS 系统 区 别 于 一 般 数 字 制 图 系统 的 主要 标志 
之 一 。 目 前 常用 的 GIS 系统 的 空间 分 析 功 能 有 综合 属性 数据 分 析 、 拓 扑 分 析 、 缓 冲 区 分 
析 \ 密 度 分 析 、 距 离 分 析 、 倒 置 分 析 、 网 络 分 析 、 地 形 分 析 、 趋 势 面 分 析 、 预 测 分 析 等 ,应 用 这 
些 方法 可 以 交互 式 地 发 现 目 标 在 空间 上 的 相连 、 相 邻 和 共生 等 关联 关系 以 及 目标 之 间 的 
最 短路 径 、 最 优 路 径 等 辅助 决策 的 知识 。 空 间 分 析 往 往 是 应 用 领域 知识 产生 新 的 空间 数 
据 , 所 以 常 作为 预 处 理 和 特征 提取 方法 与 其 他 数据 发 掘 方法 结合 起 来 从 空间 数据 库 发 现 
知识 。 


3. 归纳 学 习 方 法 (Induction Learning Approach) 


归纳 学 习 方法 是 从 大 量 的 经 验 数据 中 归纳 抽取 出 一 般 的 规则 和 模式 ,其 大 部 分 算法 
来 源 于 机 器 学 习 领 域 ,其 中 最 著名 的 是 Quinlan 提出 的 C4.5 算法 。C4. 5 是 一 种 决策 树 
算法 ,由 ID3 算法 发 展 而 来 ,采用 来 选择 属性 ,分 类 速度 快 ,适合 于 大 数据 库 的 学 习 , 而 
C4.5 在 ID3 的 基础 上 增加 了 将 决策 树 转 换 为 等 价 的 产生 式 规则 的 功能 ,并 解决 了 连续 取 
值 数据 的 学 习 问 题 。 韩 家 炜 (Han Jiawei) 教授 等 提出 了 一 种 面向 属性 的 归纳 方法 
(Attribute Oriented Induction,AOI) ,专门 用 于 从 数据 库 中 发 现 知识 ,通过 概念 树 的 提升 
对 数据 进行 概括 和 综合 ,归纳 出 高 层次 的 模式 或 特征 。 裴 健 等 对 面向 属性 的 归纳 方法 进 
行 了 扩展 ,形成 了 基于 空间 属性 的 归纳 方法 (Spatial Attribute Oriented Induction， 
SAOD) 。 


4. 关联 规则 挖掘 方法 (Spatial Association Rule Mining Approach) 


挖掘 关联 规则 首先 由 Agrawal 等 提出 ,主要 是 从 超级 市 场 销售 事务 数据 库 中 发 现 顾 
客 购买 多 种 商品 的 搭配 规律 。 最 著名 的 关联 规则 挖掘 算法 是 Agrawal 提出 的 Apriori 算 
法 ,其 主要 思路 是 统计 多 种 商品 在 一 次 购买 中 共同 出 现 的 频数 ,然后 将 出 现 频 数 多 的 搭配 
转换 为 关联 规则 。Agrawal 等 人 还 提出 了 AIS、AprioriTid、Cumulate 和 Stratify 等 算法 ， 
Houtsma 等 人 提出 SETM 算法 ,Park 等 人 提出 了 DHP 算法 , 韩 家 炜 等 人 在 面向 属性 归 
纳 (Attribute Oriented Induction ) 的 基础 上 ,提出 了 多 层次 关联 规则 的 挖掘 算法 ML _ 
T2L1 等 , 先 求 出 高 概括 层 的 频繁 模式 (Frequent Itemset) ,逐渐 具体 化 , 控 掘 低 概括 层 的 
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频繁 模式 ,最 后 由 频繁 模式 求解 关联 规则 。 为 提高 挖掘 的 效率 ， AprioriTid 算法 在 事务 
中 记录 支持 的 模式 : ML_T2L1 算法 也 采用 了 类 似 AprioriTid 算法 的 结构 ,在 事务 中 记 
录 支 持 的 概括 层 的 模式 ,减少 了 元 余 匹 配 和 对 事务 数据 的 访问 。 空 间 数 据 库 同 事务 型 数 
据 库 一 样 ,也 可 进行 空间 关联 规则 的 挖掘 。K. Koperski 提出 了 一 种 逐步 求 精 的 空间 关联 
规则 挖掘 算法 。 


5. 聚 类 方法 (Clustering Approach) 


聚 类 是 指 按 一 定 的 距离 或 相似 性 系数 将 数据 分 成 一 系列 相互 区 分 的 组 。 常 用 的 经 典 
聚 类 方法 有 K-means\、K-medoids ISODAIA 等 。 在 空间 数据 挖掘 中 ,R. Ng 等 人 提出 了 
基于 面向 大 数据 集 的 CLARANS 算法 ,Ester M 提出 了 DBSCAN 算法 , 周 成 虎 等 将 信息 
焙 的 概念 引入 SDM 中 ,提出 了 基于 信息 箭 的 时 空 一 体 化 的 地 学 数据 分 割 聚 类 模型 等 等 。 


6. 分 类 方法 (Classification Approach) 


分 类 就 是 假定 数据 库 中 的 每 个 对 象 (在 关系 数据 库 中 对 象 是 元 组 ) 属 于 一 个 预先 给 定 
的 类 ,从 而 将 数据 库 中 的 数据 分 配 到 给 定 的 类 中 。 研 究 者 根据 统计 学 和 机 器 学 习 提 出 了 
很 多 分 类 算法 。 大 多 数 分 类 算法 用 的 是 决策 树 方法 , 它 用 一 种 自 上 而 下 分 而 治之 的 策略 
将 给 定 的 对 象 分 配 到 小 数据 集中 ,在 这 些小 数据 集中 , 叶 节 点 通常 只 连 着 一 个 类 。 许 多 研 
究 者 研究 了 空间 数据 的 分 类 问题 。Fayyad 等 人 用 决策 树 方法 对 恒星 的 影像 数据 进行 了 
分 类 ,总 共有 3TB 的 机 格 数据 。 训 练 数据 集 由 天 文学 家 进行 分 类 ,在 此 基础 上 建立 了 用 
于 决策 树 分 类 的 10 个 训练 数据 集 ,接着 用 决策 树 进行 分 类 ,发 现 模式 ,这 个 方法 不 适合 
GIS 中 的 矢量 数据 。Ester 等 人 利用 邻近 图 提出 了 空间 数据 的 分 类 方法 ,该 方法 是 基于 
ID3 而 来 的 , 它 不 但 考虑 了 分 类 对 象 的 非 空间 属性 ,而 且 考虑 了 邻近 对 象 的 非 空 间 属 性 。 
K. Koperski 等 人 用 决策 树 进 行 空 间 数 据 分 类 ,接着 分 析 了 空间 对 象 的 分 类 问题 和 数据 库 
中 空间 对 象 之 间 的 关系 ,最 后 提出 了 一 个 能 处 理 大 量 不 相关 的 空间 关系 的 算法 ,并 针对 假 
设 和 真实 数据 进行 了 空间 数据 分 类 实验 。 

分 类 和 聚 类 都 是 对 目标 进行 空间 划分 ,划分 的 标准 是 类 内 差别 最 小 而 类 间 差 别 最 大 ， 
分 类 和 聚 类 的 区 别 在 于 分 类 事先 知道 类 别 数 和 各 类 的 典型 特征 ,而 聚 类 则 事先 不 知道 。 


7. 粗糙 集 方法 (Rough Sets) 


粗糙 集 理 论 是 被 广泛 应 用 于 处 理 不 精确 、 不 确定 和 不 完全 的 信息 分 类 分 析 和 知识 获 
取 的 一 种 智能 数据 决策 分 析 工 具 。 粗 糙 集 从 集合 论 的 观点 出 发 ,在 给 定论 域 中 以 知识 足 
够 与 否 作 为 实体 分 类 的 标准 ,并 给 出 划分 类 型 的 精度 。 上 近似 集中 的 实体 具有 足够 必要 
的 信息 和 知识 ,确定 属于 该 类 别 ; 论 域 全 集 以 内 且 下 近似 集 以 外 的 实体 没有 必要 的 信息 和 
知识 ,确定 不 属于 该 类 别 ; 上 近似 集 和 下 近似 集 的 差 集 为 类 别 的 不 确定 边界 ,其 中 的 实体 
没有 足够 必要 的 信息 和 知识 ,无 法 确切 地 判断 是 否 属于 该 类 别 , 为 类 别 的 边界 。 若 两 个 实 
体 有 完全 相同 的 信息 , 则 它们 为 等 价 关 系 ,不 可 区 分 。 根 据 利 用 统计 信息 与 否 ,现存 的 粗 
糙 集 模型 及 其 延伸 可 以 分 为 代数 型 和 概率 型 两 大 类 。 粗 糙 集 的 基本 单位 为 等 价 类 ,类 似 
于 栅 格 数据 的 栅 格 、 矢 量 数据 的 点 或 影像 的 像素 。 等 价 类 划分 越 细 ,粗糙 集 描述 实体 就 越 
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精确 ,但 存储 空间 和 计算 时 间 也 越 大 。 
8. 云 理 论 (Cloud Theory) 


云 理 论 是 用 于 处 理 不 确定 性 的 一 种 新 理论 ,由 云 模型 (Cloud Model)、 虚 拟 云 
(Virtual Cloud) \ 云 运算 (Cloud Operation)\ 云 变换 (Cloud Transform) 和 不 确定 性 推理 
(Reasoning under Uncertainty) 等 主要 内 容 构成 。 云 模型 将 模糊 性 和 随机 性 结合 起 来 , 解 
决 了 作为 模糊 集 理论 基石 的 隶属 函数 概念 的 固有 缺陷 ,为 DMKD 中 定量 与 定性 相 结 合 
的 处 理 方法 黄 定 了 基础 ;虚拟 云 和 云 变换 用 于 概念 层次 结构 生成 和 概念 提升 , 云 推理 用 于 
不 确定 性 预测 等 。 云 理论 在 知识 表达 、 知 识 发 现 、 知 识 应 用 等 方面 都 可 以 得 到 充分 的 应 
用 。 另 外 ,神经 网 络 (Neural Network)\ 证 据 理论 (Evidence Theory)、 模 糊 集 (Fuzzy 
Sets) 理 论 .遗传 算法 (Genetic Algorithms) 等 也 可 用 于 空间 数据 发 气 和 知识 发 现 。 


11.3 流 数 据 挖掘 


传统 的 数据 管理 系统 ,只 能 用 于 处 理 永久 的 数据 和 进行 瞬时 的 查询 ,早已 不 能 满足 这 
个 信息 时 代 对 于 数据 库 技术 的 要 求 了 。 随 着 计算 机 硬件 、 网 络 通信 等 技术 的 飞速 发 展 , 产 
生 了 一 种 新 型 的 数据 类 型 , 即 流 数据 。 与 传统 的 数据 管理 系统 相 比 , 流 数 据 具 有 一 系列 的 
优越 性 ,使 得 对 流 数 据 进行 数据 挖掘 非常 重要 和 必要 了 。 近 年 来 , 流 数 据 挖掘 技术 已 发 展 
成 为 现代 数据 库 技术 研究 的 一 个 重要 方向 ,引起 了 众多 科研 学 者 的 关注 和 进一步 研究 。 


11.3.1 流 数 据 的 特点 


流 数据 是 一 个 没有 界限 的 数据 序列 ,数据 产生 的 速度 非常 快 。 它 在 任何 时 刻 都 有 大 
量 的 数据 产生 ,数据 产生 速度 之 快 以 至 于 数据 挖掘 的 速度 赶不上 产生 的 速度 , 且 这 些 数据 
的 产生 可 以 认为 是 没有 休止 的 。 总 的 来 讲 , 一 个 流 数据 是 连续 、 有 序 、 实 时 ,无限 的 元 组 序 
列 , 与 传统 的 数据 集 相 比 , 流 数 据 具 有 以 下 一 些 主 要 特点 : (1) 数 据 连续 不 断 到 达 。 数 据 
量 非常 大 ,存储 所 有 数据 的 代价 是 极 大 的 。(2) 有 序 性 、 实 时 性 。 流 数据 中 的 元 组 按时 间 
有 序 地 到 达 并 实时 地 变化 , 且 变 化 的 速率 是 无 法 控制 的 。(3) 概 要 性 。 处 理 流 数 据 时 ,要 
求 构造 概要 数据 结构 。(4) 近 似 性 。 也 就 是 说 , 流 数 据 查 询 以 及 挖掘 处 理 得 到 的 结果 是 近 
似 的 。(5) 单 遍 处 理性 。 由 于 内 存 的 限制 ,只 能 对 流 数据 进行 单 遍 扫描 ,而 且 数 据 一 经 处 
理 , 就 不 能 被 再 次 取出 处 理 。(6) 即 时 性 。 用 户 要 求 得 到 即时 的 处 理 结果 。 可 以 说 , 流 数 
据 的 这 些 特 殊 性 为 基于 流 数据 的 数据 挖掘 关键 技术 及 其 应 用 带 来 了 新 的 机 遇 和 挑战 , 具 
有 非常 重要 的 现实 意义 。 


11.3.2 流 数据 挖掘 关键 技术 


就 现 阶 段 来 看 , 流 数 据 挖掘 技术 已 成 为 数据 挖掘 领域 的 一 个 新 的 研究 方向 。 对 于 流 
数据 挖掘 技术 来 说 ,为 了 有 效 地 挖掘 出 流 数据 中 潜在 的 知识 ,就 必须 对 其 进行 更 加 深入 的 
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研究 ,下 面 给 出 了 流 数据 挖掘 的 四 个 关键 技术 。 
1. 流 数据 频繁 模式 挖掘 技术 


流 数 据 频 繁 模式 挖掘 任务 主要 是 在 有 限 的 计算 和 存储 资源 条 件 下 , 流 数据 通过 近似 
算法 的 模式 进行 计数 ,可 以 支持 这 种 满足 几 个 条 件 频繁 模式 的 频率 。 依 据 控 气 结果 的 完 
整 性 ,挖掘 问题 可 分 为 4 种 类 型 : 最 大 频繁 项 集 挖掘 、 闭 频繁 项 集 挖掘 、 完 全 频繁 项 集 挖 
掘 以 及 Top-k 频繁 项 集 挖掘 ;依据 相对 误差 计数 的 频率 范围 内 的 随机 挖掘 算法 可 以 分 为 
两 种 类 型 : 基于 概率 的 近似 算法 和 确定 误差 区 间 的 近似 算法 。 总 的 来 说 ,在 流 数据 频繁 
模式 挖掘 方面 ,可 以 利用 流 数据 的 时 效 性 和 流 中 心 的 偏 移 性 特征 ,使 界 标 窗口 与 时 间 衰 减 
这 两 种 模型 有 效 结 合 。 这 种 频繁 模式 挖掘 技术 主要 是 通过 一 个 动态 体系 来 形成 整体 模式 
支持 数 ,再 按照 时 间 衰 减 模型 对 每 个 模式 支持 数 进行 合理 统计 ,从 而 计算 出 界 标 窗口 内 模 
式 的 频繁 程度 。 该 算法 挖掘 精度 高 ,内存 开销 小 ,对 于 高 速 流 数 据 处 理 要 求 也 能 够 有 效 满 
足 ,并 能 适应 不 同 数量 的 交易 ,不 同 的 服务 和 不 同 的 最 大 潜在 频繁 模式 的 流 数据 平均 长 度 
的 挖掘。 


2. 流 数 据 相 似 性 搜索 技术 


目前 ,在 流 数据 相似 性 搜索 方面 的 研究 仍 不 多 见 。 相 似 性 搜索 可 描述 为 : 在 设置 一 
些 功 能 的 基础 上 找到 相似 的 序列 ,并 给 定 一 个 查询 序列 的 子 集 在 序列 集合 的 措施 。 在 一 
般 情 况 下 , 流 数据 的 子 序列 相似 性 量度 与 之 相 匹 配 ,在 相似 性 量度 中 ,主要 有 LP 范 数 , 动 
态 扭 曲 距离 以 及 最 长 公共 子 序列 距离 这 三 种 相似 性 量度 函数 。 其 中 ,LP 范 数 对 时 间 捏 
曲 的 标准 是 很 敏感 的 ,同时 只 限于 相等 长 度 的 序列 之 间 的 比较 ;动态 扭曲 距离 对 局 部 时 间 
位 移 的 处 理 效果 较 佳 ,但 复杂 性 过 高 且 容 易 受 孤 立 点 的 干扰 ;而 最 长 公共 子 序列 距离 能 够 
克服 很 多 缺陷 和 不 足 之 处 ,而 且 其 相似 性 搜索 标准 是 最 长 公共 子 序列 的 长 度 。 针 对 流 数 
据 上 难以 建立 索引 结构 的 特征 ,可 以 利用 动态 时 间 扭 曲 距离 函数 ,充分 运用 数学 中 的 分 
段 \ 填 充 元 和 行列 约束 度 等 基本 概念 ,构造 一 组 适应 不 同 场景 的 流 数据 相似 性 量度 函数 及 
其 配套 的 上 下 界 精 化 函数 ,这 样 可 以 得 出 相应 的 流 数 据 相似 性 搜索 算法 ,可 以 说 这 种 算法 
在 流 数据 相似 性 搜索 中 的 应 用 前 景 相 当 可 观 。 


3. 流 数据 任意 形状 聚 类 技术 


目前 国内 对 流 数据 聚 类 的 研究 还 比较 少 , 可 以 说 将 会 是 流 数 据 挖掘 未 来 研究 的 一 个 
重要 方向 。 流 数据 上 的 任意 形状 聚 类 就 是 通过 单 遍 扫 描 流 数据 ,将 低 密度 区 域 与 其 他 簇 
相 分 离 ( 密 度 通常 由 对 象 个 数 决 定 )。 基 于 密度 的 集群 被 认为 是 包含 一 个 相对 高 密度 连通 
区 域 的 一 组 对 象 的 多 维 空间 ,在 同一 群集 的 数据 对 象 且 不 同 簇 之 间 拥 有 一 个 很 高 的 相似 
度 。 最 重要 的 是 ,不 同 的 流 数据 任意 形状 聚 类 算法 是 从 传统 的 数据 聚 类 算法 上 归纳 总 结 
而 来 的 , 流 数据 任意 形状 聚 类 可 以 归纳 在 4 个 主要 的 方面 中 , 即 分 层 方法 、 划 分 方法 、 基 于 
密度 方法 以 及 基于 网 络 方法 ,并且 大 部 分 的 流 数据 聚 类 是 基于 这 4 类 算法 的 扩展 。 在 流 
数据 任意 形状 聚 类 方面 ,可 以 利用 流 数 据 的 时 效 性 和 概念 漂移 特性 ,使 滑动 窗口 与 时 间 误 
减 这 两 种 模型 有 效 结合 。 在 流 数据 挖掘 关键 技术 中 ,这 种 任意 形状 聚 类 技术 主要 是 通过 
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时 间 衰 减 模型 ,用 历史 的 元 组 密度 指数 衰减 ,可 以 说 聚 类 速度 极 快 且 空间 开销 小 ,并 能 适 
应 不 同 的 长 度 , 尺 十 和 任意 形状 的 流 数 据 的 自然 集群 数量 的 聚 类 。 在 训 变 征集 群 密度 的 
统计 窗口 的 边界 ,描绘 出 滑动 窗口 的 密度 ,可 以 开发 一 个 多 组 织 结构 的 集群 功能 ,有 效 地 
降低 维护 代价 。 但 同时 对 非 凸 形状 聚 类 效果 不 好 ,无 法 发 现任 意 形 状 的 聚 类 ,而且 当 噪声 
数据 增多 时 , 聚 类 质量 也 会 随 之 下 降 , 因 此 在 这 方面 还 需 进一步 去 研究 和 扩展 。 


4. 流 数据 分 类 技术 


流 数 据 分 类 技术 是 一 个 非常 重要 的 数据 挖掘 技术 ,其 主要 目的 是 根据 现 有 的 数据 集 
来 构造 一 个 分 类 函数 ,其 分 类 功能 可 以 在 一 个 特定 的 类 别 上 映射 和 新 的 样本 。 实 际 上 , 流 
数据 分 类 拥有 一 个 独立 的 单 扫描 功能 ,通过 流 数据 和 连续 使 用 分 类 功能 的 流 数据 将 被 映 
射 到 一 个 特定 的 对 象 ,在 一 个 给 定 的 类 别 和 特定 的 频率 中 重新 校正 功能 ,以 消除 旧 样 本 的 
影响 。 对 于 流 数据 分 类 挖掘 技术 ,主要 有 两 个 步骤 : 第 一 步 ,根据 训练 样本 建立 数据 来 描 
述 和 分 类 类 别 之 间 的 区 分 ;第 二 步 ,建立 一 个 分 类 ,使 用 类 标签 的 测试 数据 预测 一 个 未 知 
的 类 ,并 评估 分 类 精度 。 在 流 数 据 分 类 方面 ,基于 核 主 成 分 分 析 算 法 ,可 以 针对 增 量 化 求 
解 方法 ,构造 一 种 旨 在 降低 分 类 处 理 量 的 维 数 约 减 算法 。 更 可 以 结合 BP 神经 网 络 构造 
出 相应 的 流 数据 分 类 算法 。 该 算法 的 时 间 和 空间 复杂 度 低 ,收敛 性 能 稳定 ,分 类 精度 高 ， 
能 够 较 好 地 满足 流 数 据 分 类 算法 的 实时 处 理 要 求 , 有 效 地 解决 高 速 数据 挖掘 的 时 间 内 存 
和 样本 对 流 数 据 的 局 限 性 。 

综 上 所 述 , 从 频繁 项 集 、 相 似 性 搜索 、 聚 类 、 分 类 这 4 个 角度 全 面 研究 流 数据 挖掘 技 
术 , 可 以 说 为 流 数据 挖掘 未 来 的 研究 方向 和 发 展 前 景 提供 了 良好 的 保障 ,为 了 促进 流 数 据 
挖掘 技术 的 广泛 应 用 和 不 断 发 展 , 还 需要 对 其 进行 更 加 深入 的 研究 。 


11.3.3 流 数 据 挖 掘 的 实际 应 用 及 前 景 


可 以 说 ,在 人 们 的 现实 生活 中 的 流 数据 挖掘 是 很 常见 的 ,尤其 是 随 着 信息 技术 的 不 断 
发 展 , 流 数据 以 不 同 的 方式 出 现在 了 许多 领域 的 应 用 之 中 ,主要 包括 网 络 监控 ,传感器 等 
航天 科技 、 股 票 市 场 金融 市 场 等 ,目前 , 流 数据 挖掘 主要 是 用 在 上 述 领域 中 需要 处 理 大量 
数据 的 关键 部 门 。 例 如 ,用 于 零售 业 交 易 中 的 流 数据 挖掘 ,可 以 对 促销 活动 的 有 效 性 、 顾 
客 的 忠诚 度 等 进行 全 面 分 析 ; 用 于 股票 市 场 的 流 数据 挖掘 ,可 以 帮助 人 们 预测 股市 的 起 
伏 ; 用 于 航天 科技 中 的 流 数据 挖掘 ,可 以 从 空间 对 象 的 实时 图 像 中 提取 模式 ,从 而 利用 高 
度 自动 化 的 航天 器 以 及 传感器 进行 空间 探测 ;用 于 移动 车 辆 的 监控 和 信息 提取 的 流 数据 
挖掘 ,可 以 对 驾驶 员 进 行 行为 分 析 等 。 可 以 相信 , 随 着 我 国 计 算 机 和 通信 等 信息 技术 的 快 
速 发 展 , 流 数据 挖掘 技术 将 在 更 多 的 领域 得 到 广泛 应 用 。 

在 现 阶段 , 流 数据 的 挖掘 技术 与 相关 知识 的 研究 已 成 为 国际 数据 挖掘 领域 的 一 大 热 
点 ,其 在 众多 领域 中 的 应 用 前 景 相 当 广 阔 。 对 于 流 数据 挖掘 技术 ,其 未 来 的 研究 将 会 主要 
集中 在 以 下 几 个 方面 : (1) 高 维度 实时 流 数据 的 挖掘 。 由 于 大 多 数 真实 流 数 据 都 具有 高 
维 性 ,高 维 空间 中 对 象 分 布 稀 朴 ,很 难 识别 噪声 ,因而 是 一 个 较 难 解决 的 问题 , 仍 需 深入 研 
究 。(2) 基 于 资源 约束 的 自 适应 实时 流 数据 聚 类 。 主 要 是 针对 无 线 传 感 网 络 等 资源 约束 
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环境 进行 流 数 据 聚 类 ,由 于 涉及 的 知识 领域 极 广 ,目前 对 这 方面 的 研究 还 处 于 初级 阶段 ， 
还 需要 进一步 研究 。 总 而 言 之 , 流 数据 上 的 数据 挖掘 还 有 许多 问题 值得 我 们 去 进一步 研 
究 和 探讨 ,为 此 ,我们 将 继续 对 流 数据 领域 进行 进一步 研究 。 


11.4 数据 挖掘 与 可 视 化 技术 
11.4.1 什么 是 可 视 化 


科学 计算 可 视 化 (Visualization In Scientific Computing,VISC) 是 发 达 国 家 在 20 世 
纪 80 年 代 后 期 提出 并 发 展 起 来 的 一 个 新 的 研究 领域 。 通 过 科学 计算 可 视 化 来 启发 和 促 
进 对 自然 规律 更 深层 的 认识 ,从 而 发 现 规律 并 应 用 于 生产 领域 。 科 学 计算 可 视 化 运用 计 
算 机 图 形 学 和 图 像 处 理 技术 ,将 科学 计算 过 程 中 产生 的 数据 及 计算 结果 转换 为 图 形 或 图 
像 在 屏幕 上 显示 出 来 ,并 进行 交互 处 理 的 理论 ,方法 和 技术 。 

实际 上 , 随 着 相关 技术 的 发 展 ,科学 计算 可 视 化 的 含义 已 经 逐渐 被 扩展 , 它 不 仅 包括 
科学 计算 数据 可 视 化 ,而 且 包 括 工程 计算 数据 的 可 视 化 ,如 有 限 元 分 析 的 结果 等 。 同 时 也 
包括 测量 数据 的 可 视 化 ,如 用 于 医疗 领域 的 计算 机 断层 扫描 数据 及 核磁 共振 数据 的 可 视 
化 等 应 用 领域 。 科 学 计算 可 视 化 也 覆盖 了 多 门 学 科 的 研究 领域 , 它 融 合 了 计算 机 图 形 学 、 
图 像 处 理学 .科学 与 符号 计算 .计算 机 视觉 等 领域 的 知识 。 

为 了 理解 数据 之 间 的 相互 关系 及 发 展 趋势 ,促使 人 们 开始 研究 用 于 表示 抽象 信息 的 
可 视 化 技术 。 可 视 化 不 仅 用 图 像 来 显示 多 维 的 非 空 间 数 据 ,而 且 用 形象 直观 的 图 像 来 指 
引 检 索 过 程 ,加 快 检索 速度 。 在 科学 计算 可 视 化 中 ,显示 的 对 象 涉 及 标量 、 矢 量 及 张 量 等 
不 同类 别 的 空间 数据 ,研究 的 重点 放 在 如 何 真实 ,快速 地 显示 三 维 数据 场 。 而 在 可 视 化 
中 ,显示 的 对 象 主要 是 多 维 的 标量 数据 ,目前 的 研究 重点 在 于 ,设计 和 选择 什么 样 的 显示 
方式 才能 便于 用 户 了 解 庞 大 的 多 维 数 据 及 它们 相互 之 间 的 关系 ,其 中 更 多 地 涉及 心理 学 、 
人 机 交互 技术 等 问题 。 

所 谓 * 可 视 化 ?就 是 将 数据 ,程序 .复杂 系统 的 结构 及 动态 行为 用 图 形 .图像 .动画 等 可 
视 化 的 形式 表示 。 可 视 化 的 内 涵 是 将 数据 通过 图 形 化 ,地 理化 形象 真实 地 表现 出 来 并 且 
找 出 数据 背后 蕴含 的 信息 ,其 本 质 是 从 抽象 数据 到 可 视 结构 的 映射 。 可 以 用 两 个 标准 来 
评价 可 视 化 的 效果 : 表现 力 和 有 效 性 。 表 现 力 是 指 可 视 化 的 结果 使 所 有 的 数据 得 到 表 
现 , 而 且 没有 其 他 的 东西 被 引入 ;有 效 性 是 指 可 视 化 能 够 使 用 户 充分 发 现 数据 之 间 的 关系 
和 理解 数据 。 可 视 化 相关 技术 能 够 实现 对 信息 数据 的 分 析 和 提取 ,然后 以 图 形 、 图 像 、 虚 
拟 现实 等 易 为 人 们 所 辨识 的 方式 展现 原始 数据 间 的 复杂 关系 ,潜在 信息 以 及 发 展 趋势 ,以 
便 我 们 能 够 更 好 地 利用 所 掌握 的 信息 资源 。 一 般 来 说 ,数据 可 视 化 技术 包含 以 下 几 个 基 
本 概念 。 

(1) 数据 空间 (Data Space) : 也 称 为 多 维 数据 空间 ,是 由 PP 维 属性 和 个 元 素 组 成 的 
数据 集 所 构成 的 多 维 空间 。 

(2) 映射 空间 (Mapping Space) : 也 称 为 投影 空间 ,是 将 多 维 数据 按 一 定 的 函数 或 规 
则 转换 后 得 到 的 低 维 可 视 空间 。 
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(3) 多 维 数据 分 析 (Multidimensional Data Analysis) : 是 指 对 多 维 数据 进行 切片 、 切 
块 `. 旋 转 等 动作 剖析 数据 ,从 而 能 多 角度 多 侧面 地 观察 数据 。 

(4) 多 维 数据 探索 (Multidimensional Data Exploration) : 是 指 利 用 一 定 的 算法 和 工 
具 对 多 维 数据 蕴含 的 信息 进行 搜索 ,得 到 有 用 、 新 颖 的 信息 。 

(5) 多 维 数据 可 视 化 (Multidimensional Data Visualization) : 是 指 将 大 型 数据 集中 
的 数据 以 图 形 图 像 的 形式 表示 ,并 利用 数据 分 析 和 挖掘 工具 开发 其 中 未 知 信息 的 处 理 
过 程 。 


11.4.2 数据 可 视 化 技术 分 类 
数据 的 可 视 化 会 涉及 数据 类 型 .可视化 技术 以 及 对 数据 进行 交互 和 变形 等 技术 ,这 三 


个 要 素 构 成 了 对 数据 的 可 视 化 。 图 11-4 描述 了 三 个 要 素 各 自 所 包含 的 内 容 。 
人 数据 类 型 


一 维 数据 上 可 视 化 技术 
二 维 数据 
多 维 数据 
文本 /Web 上 
层次 /图 形 数据 上 


几何 转化 显示 
算法 /软件 


标准 2D/3D 显 示 


标准 ”投影 过 滤 ”放大 变形 连接 & 刷 
图 11-4 数据 可 视 化 的 三 个 要 素 


下 面 对 这 三 个 要 素 作 一 下 简要 介绍 
1. 待 可 视 化 数据 的 类 型 


(1) 一 维 数据 。 一 维 数据 通常 有 一 个 密度 维 ,典型 的 一 维 数据 的 例子 是 时 序数 据 。 
在 每 一 个 时 间 点 有 一 个 或 多 个 数据 值 相关 联 。 

(2) 二 维 数据 。 二 维 数据 有 两 个 不 同 维 。 一 个 典型 的 例子 是 地 理 数 据 , 有 两 个 不 同 
的 维 : 经 度 和 纬度 。X-Y 坐标 是 典型 的 显示 二 维 数据 的 方法 ,尽管 看 起 来 可 以 很 容易 地 
处 理 时 序 或 地 理 数 据 , 但 是 当 数 据 量 很 大 时 ,这 种 方法 不 是 很 容易 理解 数据 。 

(3) 多 维 数据 。 许 多 数据 集 包括 超过 三 个 维度 的 属性 ,这 样 就 不 能 简单 地 作为 二 维 
或 三 维 数据 来 显示 。 多 维 数据 的 典型 例子 是 关系 数据 库 中 的 表 , 表 的 每 一 列 都 表示 一 个 
属性 。 可 以 对 多 维 数据 进行 描述 的 方法 有 : 平行 坐标 、 密 集 像 素 显 示 技 术 、 散 点 图 矩阵 、 
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星 型 坐标 等 。 

(4) 文本 和 超 文本 。 不 是 所 有 的 数据 都 可 以 靠 维 数 来 表示 ,在 网 络 时 代 , 一 种 重要 的 
数据 类 型 是 文本 和 超 文本 ,这些 数据 不 能 轻易 地 被 描述 为 数字 ,因此 许多 标准 的 可 视 化 技 
术 不 能 被 应 用 。 多 数 情况 下 ,首先 把 该 数据 转化 为 向 量 描述 ,然后 再 应 用 可 视 化 技术 。 

(5) 其 他 数据 类 型 。 这 些 数据 类 型 包括 图 形 、 层 次 数据 、 算 法 和 软件 等 。 图 形 可 以 表 
示 一 般 数 据 之 间 的 内 部 依赖 关系 ,而 大 量 的 信息 集合 都 有 严格 的 层次 结构 ,例如 企业 员工 
的 组 织 ,产品 分 类 图 等 ,层次 数据 类 型 可 视 化 的 一 种 常见 方法 是 将 相关 数据 转化 成 一 棵 
树 , 因 为 层次 结构 和 树 有 着 很 好 的 对 应 关系 , 树 有 着 从 上 到 下 的 顺序 ,内 节点 有 子 节 点 , 叶 
子 节点 是 最 终 节 点 ,从 根 到 每 个 节点 存在 唯一 的 路 径 。 算 法 和 软件 的 可 视 化 目的 是 为 了 
帮助 对 算法 的 理解 ,以 此 来 支持 软件 的 开发 ,例如 流程 图 .代码 结构 图 等 。 


2. 可 视 化 技术 


可 视 化 技术 包含 几 个 方面 ,下 面 逐 个 介绍 每 种 数据 可 视 化 技术 。 

(1) 标准 的 2D/3D 技术 : 如 XY(CXY-Z) 坐 标 , 条 形 图 (Bar Charts) ,线条 图 (Line 
Graphs) 等 ,这 也 是 我 们 最 常用 到 的 数据 可 视 化 表达 方式 。 

(2) 几何 转化 显示 技术 (Geometrically-Transformed Displays) : 几何 转化 显示 技术 
旨 在 发 现 多 维 数据 集 的 有 趣 的 转化 。 几 何 显示 技术 据 研究 统计 主要 包括 以 下 几 种 : 

OO 散 点 图 矩阵 (Scatterplots Matrices) 。 

散 点 图 可 能 是 最 流行 的 数据 挖掘 可 视 化 工具 , 它 帮助 我 们 发 现 徐 ( 聚 类 )、 外 层 、 趋 势 和 
关系 。 掠 过 的 点 和 分 类 着 色 的 点 被 用 来 获得 对 数据 的 额外 洞察 。 当 数据 点 过 多 ,彼此 交 过 
或 数据 的 分 解 使 大 量 的 数据 点 位 于 同一 个 坐标 系 时 ,放大 、 扫 视 全 景 以 及 拌 动 就 可 被 用 来 提 
高 视图 效果 。 当 要 显示 的 维 数 较 多 时 , 散 点 图 就 很 难 表现 出 好 的 效果 了 ,而 散 列 图 矩阵 解决 
了 这 个 问题 , 它 使 散 点 图 用 矩阵 的 方式 排列 以 表达 多 维 数据 集 属性 彼此 间 的 关系 。 

@ 解剖 视图 (Prosection Views) 。 

把 截面 (section) 和 投影 (projections) 组 合 起 来 称 为 解剖 (prosections) ,这 样 就 可 以 显 
示 中 间 维 的 结构 面貌 ,投影 能 够 容易 地 显示 低 维 的 结构 。 截 面 能 够 容易 地 显示 较 低 的 余 
维 数 ,例如 有 具有 高 维 对 象 的 子 空间 的 交集 。 

@ 平行 坐标 法 (Parallel Coordinates) 。 

平行 坐标 法 是 最 早 提出 的 在 二 维 平面 * 上 显示 ?7 维 空间 的 数据 可 视 化 技术 之 一 。 它 
的 基本 思想 是 将 n 维 数据 属性 空间 用 条 等 距离 的 平行 轴 映 射 到 二 维 平面 上 ,每 条 轴线 
对 应 一 个 属性 维 , 坐 标 轴 的 取 值 范围 从 对 应 属性 的 最 小 值 到 最 大 值 均匀 分 布 。 这 样 , 每 一 
个 数据 项 就 都 可 以 用 一 条 折线 表示 在 n 条 平行 轴 上 。 这 个 视图 能 够 使 用 户 对 每 个 属性 的 
数据 分 布 有 一 个 粗略 的 认识 ,尤其 是 当 不 同类 型 的 数据 以 不 同 颜色 显示 ,能够 更 清晰 地 表 
示 不 同类 型 数据 之 间 的 差异 。 

@ 星 型 坐标 法 (Star Coordinates) 。 

星 型 坐标 法 是 在 近 几 年 提出 的 一 种 新 的 可 视 化 方法 , 它 也 是 在 二 维 平 面 上 显示 nn 维 
空间 的 数据 可 视 化 技术 之 一 。 它 的 基本 思想 是 将 nn 维 数据 属性 以 坐标 轴 的 形式 映射 到 二 
维 平 面 上 ,每 条 坐标 轴 对 应 一 个 数据 属性 ,这 些 轴 线 相交 于 一 个 中 心 点 ,n 维 数据 空间 中 
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的 点 被 表示 成 这 个 二 维 平面 上 的 一 个 点 。 

(3) 图 标 显 示 技 术 (lconic Displays) 。 

图 标 显 示 技 术 是 基于 图 标的 技术 ,其 核心 思想 是 把 每 个 多 维 数 据 项 画 成 一 个 图 标 。 
图 标 可 以 被 任意 定义 ,它们 可 以 是 “小 脸 ”"“ 针 图 标 ?>“ 星 图 标 ”"“ 棍 图 标 ”, 这 些 都 是 曾经 
被 人 们 用 过 的 图 标 形 状 。 例 如 ,在 星 图 标 显示 技术 中 ,每 一 维 数据 用 一 条 射线 表示 ,数据 
的 大 小 由 射线 的 长 短 来 表示 ,属性 的 个 数 就 是 射线 的 条 数 , 所 有 射线 的 起 点 相同 ,彼此 的 
夹 角 也 相同 ,射线 的 端点 由 折线 段 彼此 相连 。 

(4) 密集 像素 显示 技术 (Dense Pixel Displays)。 

密集 像素 技术 的 基本 思想 是 把 每 一 维 数据 值 映射 到 一 个 彩色 的 像素 上 ,并 把 属于 每 
一 维 的 像素 归 人 临近 的 区 域 。 因 为 密集 像素 显示 技术 用 每 一 个 像素 相应 地 显示 每 一 个 数据 
值 ,所 以 此 技术 允许 可 视 化 大 量 的 数据 ,目前 大 概 能 够 在 同一 屏幕 上 显示 超过 1 000 000 个 
数据 值 。 如 果 每 个 数据 值 都 由 一 个 像素 表示 ,那么 主要 的 问题 就 是 如 何在 屏幕 上 安排 这 些 
像素 。 密 集 像素 技术 针对 不 同 的 目的 采取 不 同 的 方式 安排 像素 ,显示 的 结果 可 以 为 局 部 
关系 、 依 赖 性 和 热点 提供 详细 的 信息 。 著 名 的 例子 是 递归 模式 技术 (Recursive Pattern 
Technique) 和 圆周 分 段 技术 (Circle Segments Technique)。 递 归 模 式 技术 基于 普通 的 递 
归来 回 地 安排 像素 ,其 目标 尤其 在 于 按照 一 个 属性 以 自然 的 顺序 表示 数据 集 , 用 户 可 以 为 
每 个 递归 层 指 定 参数 , 随 之 可 以 控制 像素 的 安排 ,以 形成 语义 上 有 意义 的 子 结构 。 圆 周 分 
段 技术 的 思想 是 将 圆周 分 成 若干 部 分 ,每 部 分 对 应 一 个 属性 。 在 每 部 分 中 ,每 个 属性 值 由 
一 个 有 颜色 的 像素 显示 。 

(5) 层 释 式 显示 技术 (Stacked Displays) 。 

层 县 式 显 示 技术 以 分 层 的 方式 将 数据 分 开 表 示 在 子 空间 中 。 将 nn 维 属性 空间 划分 成 
二 维 平 面 上 的 子 区 域 , 子 区 域 彼此 嵌 套 ,对 这 些 子 区 域 仍 以 层次 结构 的 方式 组 织 并 以 图 形 
方式 表示 。 基 本 思想 是 将 一 个 坐标 系统 戏 入 另外 的 坐标 系统 中 ,属性 数值 被 划分 为 几 个 
类 。 结 果 视 图 的 有 效 性 很 大 程度 上 依赖 于 外 层 坐 标 上 数据 的 分 布 ,因此 ,用 来 定义 外 层 坐 
标 系统 的 维 数 必须 仔细 地 选择 ,一 个 首要 的 规则 是 先 选择 最 重要 的 维 。 


3. 交互 和 变形 技术 


除了 数据 可 视 化 技术 ,对 于 有 效 的 数据 研究 还 需要 一 些 交 互 和 变形 技术 。 交 互 和 变 
形 技术 可 以 使 数据 分 析 人 员 直 接 和 视图 交互 ,并且 按 照 研究 对 象 动 态 地 改变 视图 。 用 户 
根据 领域 知识 和 主观 判断 利用 交互 变形 技术 可 以 使 视图 以 不 同 的 效果 显示 出 来 ,从 不 同 
的 角度 对 数据 进行 分 析 观 察 , 达 到 很 好 的 数据 分 析 效 果 。 不 同 的 数据 可 视 化 方法 ,对 视图 
的 交互 和 变形 技术 也 有 所 不 同 , 如 上 面 介 绍 的 各 个 数据 可 视 化 方法 ,都 有 各 自 的 可 视 化 技 
术 供用 户 在 与 数据 视图 进行 交互 时 使 用 。 


11.4.3 数据 挖掘 可 视 化 技术 的 应 用 
数据 挖掘 和 可 视 化 技术 是 两 个 相对 独立 的 研究 领域 ,但 它们 又 联系 密切 。 数 据 挖掘 


过 程 需要 可 视 化 技术 的 支持 ,可 视 化 分 析 本 身 就 是 挖掘 知识 的 过 程 。 
数据 挖掘 可 视 化 是 指使 用 可 视 化 技术 在 大 量 的 数据 中 发 现 潜在 有 用 的 知识 的 过 程 。 
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其 中 ,“ 可 视 ” 是 指 “ 将 某 些 不 可 见 的 或 抽象 的 事物 表示 成 看 得 见 的 图 形 或 图 像 ”;“ 可 视 化 ” 
是 指使 用 计算 机 创建 可 视图 像 ,从 而 为 理解 那些 大 量 的 复杂 数据 提供 帮助 。 它 包含 了 数 
据 挖掘 生命 周期 的 三 个 阶段 : 数据 准备 、 模 型 生成 知识 使 用 的 创造 性 的 可 视 化 表达 。 这 
也 就 暗示 了 将 数据 挖掘 可 视 化 分 成 四 部 分 ,其 中 前 三 个 部 分 对 应 于 一 个 阶段 ,最 后 一 部 分 
就 是 对 数据 挖掘 整个 应 用 过 程 的 可 视 化 ,所 有 四 个 部 分 的 目标 都 是 为 了 提高 信息 和 知识 
在 工程 师 和 数据 挖掘 流程 之 间 交 流 的 方便 性 ,更 进一步 的 描述 如 下 : 

(1) 数据 准备 。 数 据 准 备 阶段 的 可 视 化 目标 就 是 将 数据 预 处 理 的 功能 以 可 视 化 的 形 
式 进行 ,这 里 可 视 化 操作 的 内 容 包括 : 缺失 值 的 处 理 、 数 据 转换 、 数 据 采样 和 修剪 等 。 

(2) 模型 生成 。 模 型 生成 阶段 的 目标 就 是 将 模型 创建 的 整个 细节 以 一 种 可 视 化 形式 
呈现 出 来 。 训 练 集 、 模 型 的 选择 .参数 的 设 定 `. 训 练 过 程 的 细节 结果 的 存储 都 是 这 个 阶段 
的 工作 。 数 据 挖掘 可 视 化 工作 的 目的 就 是 可 视 化 运用 ,也 就 是 以 一 种 可 视 化 的 形式 评估 、 
监督 指导 数据 挖掘 模块 。 评 估 包 括 对 训练 集 、 测 试 集 、 模 型 在 不 同 数据 中 的 表现 和 对 于 
特定 情况 的 数据 和 学 习 算 法 的 选择 等 的 有 效 性 验证 。 监 督 包括 : 跟踪 算法 的 进程 .评估 
模型 随 着 数据 库 更 新 之 后 的 情况 等 。 指 导 的 内 容 包括 : 用 户 初始 观点 的 设 定 、 输 入 的 变 
化 、 得 到 的 模式 和 其 他 的 系统 决定 。 可 视 化 的 呈现 应 该 存在 于 所 有 这 些 任 务 中 ,以 提高 用 
户 和 数据 挖掘 模块 之 间 信 息 的 交互 性 。 

(3) 知识 使 用 。 该 阶段 的 可 视 化 呈现 目标 是 通过 将 数据 挖掘 过 程 的 结果 以 可 视 化 的 
形式 呈现 出 来 ,从 而 帮助 用 户 获 取 知 识 的 。 在 大 多 数 情况 下 ,数据 挖掘 算法 的 结果 如 关 
联 ,分 类 等 ,都 是 以 一 种 人 类 的 视觉 系统 很 难 理解 的 方式 存在 的 。 已 经 有 一 些 可 视 化 技术 
提出 来 用 于 解决 这 个 问题 ,如 以 树 的 形式 展示 规则 ,但 是 只 有 极 少 一 部 分 能 够 展示 出 重要 
的 结果 特征 来 。 大 多 数 情况 下 ,如 果 生 成 了 大 量 的 结果 ,对 于 知识 分 析 师 来 说 ,还 是 很 难 
获取 有 用 的 信息 。 在 验证 阶段 ,数据 挖掘 可 视 化 的 工作 就 是 数据 可 视 化 ,其 中 包括 的 数据 
有 : 原始 数据 .汇总 数据 .配置 数据 或 者 是 抽取 得 到 的 知识 信息 。 这 个 阶段 的 数据 往往 太 
多 ,超过 了 人 能 处 理 的 范围 ,此 阶段 数据 挖掘 可 视 化 的 基本 想法 就 是 将 在 数据 空间 中 隐藏 
的 信息 尽量 多 地 呈现 在 视觉 空间 中 。 这 里 的 映射 工作 包括 将 数据 库 中 可 以 获得 的 信息 映 
射 到 可 以 用 可 视 化 技术 旦 现 的 信息 上 。 

(4) 流程 可 视 化 。 数 据 挖 握 流程 可 视 化 的 目标 就 是 将 数据 挖掘 的 整个 过 程 用 一 种 可 
视 化 的 形式 展现 在 用 户 面前 。 这 样 .也 可 以 给 知识 分 析 师 更 多 的 自信 以 指导 下 一 步 的 工 
作 。 通 过 将 数据 挖掘 过 程 用 可 视 化 的 方式 呈现 出 来 ,从 而 帮助 用 户 以 一 种 具体 和 简明 的 
方式 掌握 知识 获取 和 决策 分 析 的 进程 ,并 让 用 户 充分 地 融入 其 中 。 

所 有 前 面 的 努力 都 是 为 了 产生 可 视 化 的 结果 ,帮助 知识 分 析 师 从 数据 中 获取 尽 可 能 
多 的 信息 。 可 以 对 任何 数据 进行 可 视 化 ,只 要 有 利于 知识 的 获取 。 可 视 化 方法 不 仅 可 以 
帮助 我 们 理解 数据 中 隐藏 的 信息 ,同时 可 以 帮助 我 们 理解 数据 挖掘 分 析 的 结果 。 在 整个 
数据 挖掘 过 程 中 ,选取 合理 的 可 视 化 工具 是 发 现 高 质量 知识 和 规则 的 基础 和 保障 。 


11.5 小 结 


本 章 介绍 了 数据 挖掘 的 新 发 现 ,具体 介绍 了 Web 挖掘 、 空 间 数据 挖掘 、 流 数据 挖掘 、 
数据 挖掘 与 可 视 化 技术 。 
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2. 
3 
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. 什么 是 Web 数据 挖掘 ? Web 数据 挖掘 的 分 类 有 了 哪些? 


空间 数据 挖掘 的 特点 和 体系 结构 是 什么 ? 


. 流 数 据 的 特点 是 什么 ? 流 数据 挖掘 的 实际 应 用 有 哪些 ? 
4. 什么 是 可 视 化 ? 


数据 挖掘 的 发 展 
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